首页 > 代码库 > 什么是“元数据”
什么是“元数据”
作者:贺易之
链接:https://www.zhihu.com/question/20679872/answer/65565699
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
链接:https://www.zhihu.com/question/20679872/answer/65565699
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
要理解这个问题,首先要知道“元”是什么。
元(meta),一般被我们翻译成“关于……的……”。
事实上,这个前缀来源于希腊文,表示“在……之后”,在某样事情结束之后,就含有了“归纳”、“总结”的意思呢?因此,元,就代表着“本原”、“体系”的意思。
以文学领域为例,后现代主义文学中有一种小说叫作“元小说”,也就是“关于小说的小说”。“传统小说往往关心的是人物、事件,是作品所叙述的内容;而元小说则更关心作者本人是怎样写这部小说的,小说中往往喜欢声明作者是在虚构作品,喜欢告诉读者作者是在用什么手法虚构作品,更喜欢交代作者创作小说的一切相关过程。(摘自百度百科)”。
比如英国作家伊恩·麦克尤恩的作品《赎罪》。这本书讲述的是妹妹布里奥妮幼时因为爱上了姐姐塞西莉娅的男友罗比却被他拒绝,因报复心理作祟而陷害他入狱,长大成人之后为了弥补心中的愧疚而应征入伍来赎罪的故事。在本书中,主人公布里奥妮即是“主人公”,也是本书的“作者”。它着重于描述布里奥妮是如何写这本的书的。这就是“关心作者是怎么写这本小说”的小说。
在了解了元(meta)的含义之后,我们来看元数据。
元数据(meta data)——“data about data” 关于数据的数据,一般是结构化数据(如存储在数据库里的数据,规定了字段的长度、类型等)。
元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名,版本、出版数据、相关说明,包括检索点等),用于组织、描述、检索、保存、管理信息和知识资源。
比如,关于一本书(信息资源),我们在图书馆系统中检索可以得到如下信息
一个基本的元数据由元数据项目和元数据内容的构成。这里,“题名”就是它的元数据项目,“史蒂夫·乔布斯传 (美) 沃尔特·艾萨克森著 = Steve Jobs Walter Isaacson eng”就是元数据内容。再比如,“著者”、“出版者”都是元数据项目,而“艾萨克森 (Isaacson, Walter) 著”和“中信出版社”就是元数据内容。学过数据库的应该不难理解~
利用元数据来描述资源后,我们就可以用来做很多的事情。比如确定资源,为资源提供检索点,在不同系统之间进行数据交换。
可是,我们每个人都可以对资源进行描述,取的名字(元数据项目)和值的样子(元数据内容)会千奇百怪怎么办呢?
因此,就有了元数据标准。
元数据标准包括元数据结构标准(即元数据包含那些项目,都柏林核心集,MARC元素集)、元数据内容标准、元数据取值标准、元数据编码标准(用于机读记录的存储和交换,比如MARC(Machine Readable Cataloging), XML)
在这里我们详细看一下MARC格式(一种元数据标准)。
在传统的图书馆中,我们购买了很多的书。图书馆员们怎么能知道自己有什么书了呢?我们就需要把每本图书的信息,写在一张小卡片上(有些老图书馆还有),存放在自己的图书馆里。
但是随着计算机的发展,我们认为把书目的信息存到电脑里是更好的方法。又随着网络的发展,我们觉得应该来一个图书馆大联合,把所有的图书信息都一起存起来。但是每个图书馆都有自己的一套记录方法。因此,MARC格式就应运而生了。MARC就是在计算机出现后为系统间交换书目数据和相关信息而设计的。
当然啦,在传统图书馆的手工编目时期,使用的术语与现在的计算机编目不同。比如那时候我们把一本书的“元数据”写在一张张卡片上,称之为“款目(entry)”,而在计算机里,关于一本书的记录,就叫做“记录(record)”。在机读编目中,我们把要著录的项目(著录项目area)叫作“字段(field),还有等等的区别。
说了这么多,MARC格式是什么样的呢?
可以看一下中国使用的CN-MARC格式。(CNMARC是我国参照UNIMARC(国际图联制定UNIMARC规范各国的MARC格式)编写的中国MARC格式。)
它规定了关于文献资源应该如何记录。比如说在数据字段区,它对于101字段是这么规定的:
101 0 $a正文语种$b中间语种$c原作语种
那么我们就要编目成:
101 1 $achi $ceng (chi是中文,eng是英文)
再比如它规定210字段的编目形式如下:
210 $a出版、发行地$c出版、发行者名称$d出版、发行日期
根据这个要求我们就要写成
210 $a北京 $c机械工业出版社 $d2003
接下来,互联网发展的越来越快,元数据的格式越来越多,人们对它的互操作要求也越来越高,就出现了XML!
在利用XML描述一个文档的时候,我们可以自己定义标签,如”<title>”。这些小标签都是元数据。
在网络时代,XML作为元数据的一种表现形式是非常有潜力的。
最后我们在来看一下XML的好朋友HTML。
HTML的head里有一个meta标签。那么它是什么呢?
根据上面的解释,我们应该知道它是“关于文档的信息”了
meta的属性有两种,name和http-equiv.
name属性用来描述网页的内容,以便搜索引擎查找。比如这个网页的keywords呀。
http-equiv属性指示服务器在发送实际的文档之前先在要传送给浏览器的 MIME 文档头部包含名称/值对。
比如
<meta http-equiv="Content-Language" contect="zh-CN">用以说明主页制作所使用的文字以及语言
元(meta),一般被我们翻译成“关于……的……”。
事实上,这个前缀来源于希腊文,表示“在……之后”,在某样事情结束之后,就含有了“归纳”、“总结”的意思呢?因此,元,就代表着“本原”、“体系”的意思。
以文学领域为例,后现代主义文学中有一种小说叫作“元小说”,也就是“关于小说的小说”。“传统小说往往关心的是人物、事件,是作品所叙述的内容;而元小说则更关心作者本人是怎样写这部小说的,小说中往往喜欢声明作者是在虚构作品,喜欢告诉读者作者是在用什么手法虚构作品,更喜欢交代作者创作小说的一切相关过程。(摘自百度百科)”。
比如英国作家伊恩·麦克尤恩的作品《赎罪》。这本书讲述的是妹妹布里奥妮幼时因为爱上了姐姐塞西莉娅的男友罗比却被他拒绝,因报复心理作祟而陷害他入狱,长大成人之后为了弥补心中的愧疚而应征入伍来赎罪的故事。在本书中,主人公布里奥妮即是“主人公”,也是本书的“作者”。它着重于描述布里奥妮是如何写这本的书的。这就是“关心作者是怎么写这本小说”的小说。
在了解了元(meta)的含义之后,我们来看元数据。
元数据(meta data)——“data about data” 关于数据的数据,一般是结构化数据(如存储在数据库里的数据,规定了字段的长度、类型等)。
元数据是指从信息资源中抽取出来的用于说明其特征、内容的结构化的数据(如题名,版本、出版数据、相关说明,包括检索点等),用于组织、描述、检索、保存、管理信息和知识资源。
比如,关于一本书(信息资源),我们在图书馆系统中检索可以得到如下信息
一个基本的元数据由元数据项目和元数据内容的构成。这里,“题名”就是它的元数据项目,“史蒂夫·乔布斯传 (美) 沃尔特·艾萨克森著 = Steve Jobs Walter Isaacson eng”就是元数据内容。再比如,“著者”、“出版者”都是元数据项目,而“艾萨克森 (Isaacson, Walter) 著”和“中信出版社”就是元数据内容。学过数据库的应该不难理解~
利用元数据来描述资源后,我们就可以用来做很多的事情。比如确定资源,为资源提供检索点,在不同系统之间进行数据交换。
可是,我们每个人都可以对资源进行描述,取的名字(元数据项目)和值的样子(元数据内容)会千奇百怪怎么办呢?
因此,就有了元数据标准。
元数据标准包括元数据结构标准(即元数据包含那些项目,都柏林核心集,MARC元素集)、元数据内容标准、元数据取值标准、元数据编码标准(用于机读记录的存储和交换,比如MARC(Machine Readable Cataloging), XML)
在这里我们详细看一下MARC格式(一种元数据标准)。
在传统的图书馆中,我们购买了很多的书。图书馆员们怎么能知道自己有什么书了呢?我们就需要把每本图书的信息,写在一张小卡片上(有些老图书馆还有),存放在自己的图书馆里。
但是随着计算机的发展,我们认为把书目的信息存到电脑里是更好的方法。又随着网络的发展,我们觉得应该来一个图书馆大联合,把所有的图书信息都一起存起来。但是每个图书馆都有自己的一套记录方法。因此,MARC格式就应运而生了。MARC就是在计算机出现后为系统间交换书目数据和相关信息而设计的。
当然啦,在传统图书馆的手工编目时期,使用的术语与现在的计算机编目不同。比如那时候我们把一本书的“元数据”写在一张张卡片上,称之为“款目(entry)”,而在计算机里,关于一本书的记录,就叫做“记录(record)”。在机读编目中,我们把要著录的项目(著录项目area)叫作“字段(field),还有等等的区别。
说了这么多,MARC格式是什么样的呢?
可以看一下中国使用的CN-MARC格式。(CNMARC是我国参照UNIMARC(国际图联制定UNIMARC规范各国的MARC格式)编写的中国MARC格式。)
它规定了关于文献资源应该如何记录。比如说在数据字段区,它对于101字段是这么规定的:
101 0 $a正文语种$b中间语种$c原作语种
那么我们就要编目成:
101 1 $achi $ceng (chi是中文,eng是英文)
再比如它规定210字段的编目形式如下:
210 $a出版、发行地$c出版、发行者名称$d出版、发行日期
根据这个要求我们就要写成
210 $a北京 $c机械工业出版社 $d2003
接下来,互联网发展的越来越快,元数据的格式越来越多,人们对它的互操作要求也越来越高,就出现了XML!
在利用XML描述一个文档的时候,我们可以自己定义标签,如”<title>”。这些小标签都是元数据。
在网络时代,XML作为元数据的一种表现形式是非常有潜力的。
最后我们在来看一下XML的好朋友HTML。
HTML的head里有一个meta标签。那么它是什么呢?
根据上面的解释,我们应该知道它是“关于文档的信息”了
meta的属性有两种,name和http-equiv.
name属性用来描述网页的内容,以便搜索引擎查找。比如这个网页的keywords呀。
http-equiv属性指示服务器在发送实际的文档之前先在要传送给浏览器的 MIME 文档头部包含名称/值对。
比如
<meta http-equiv="Content-Language" contect="zh-CN">用以说明主页制作所使用的文字以及语言
什么是“元数据”
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。