收稿日期: 2003 � 04 � 11
作者简介: 张春景 ( 1978� ) , 女, 华东师范大学信息学系在读研究生, 情报学专业。
浅议元数据与文献编目应用于信息组织的异同
张春景
(华东师范大学商学院, 上海 200062)
�摘 要! 针对现在某些图书馆员认为的 ∀ 元数据即为简化了的文献编目, 文献编目就是复杂化的元数据# 这
一观点。本文从元数据的定义和文献编目的定义出发, 论述了元数据和文献编目的区别与联系, 以使人们对二者有一
个详细清楚的理解。
�关键词! 元数据; 文献编目; 机读目录
�Abstract! Both metadata and document cataloguing are tools to organize information resources but some librar�
ians think that are the same way. This document discusses the difference and relationship between metadata and docu�
ment cataloguing .
�Key words! Metadata; MARC; Dublin Core; Document Cataloguing
�中图分类号! G25C �文献标识码! A �文章编号! 1008- 0821 ( 2003) 06- 0014- 02
由于WWW已经普遍深入社会各角落, 网页上的信息
已经越来越丰富和重要, 图书馆作为社会主要的信息处理
和传播机构之一, 已无法再忽视网页, 而须思考如何将网
页纳入馆藏来加以处理, 因此可以预见书目资料与网页的
合并处理, 已是必然的趋势。然而, 书目资料与网页的主
要著录者, 却是截然不同类型的人, 书目资料主要由图书
馆专业工作人员负责, 对书目著录资料的品质要求极高;
相反的, 网页由于数量庞大, 必须由网页的创作者自行描
述。因此图书馆员需要较复杂完整的著录格式, 而网页的
著录则要求简单和成本低的信息描述格式。由此来说, 我
们就需要一种简单有弹性, 能同时适合专业和非专业著录
人员的信息描述格式, 元数据就应运而生。
1 元数据的概念及简介
元数据 ( metadata) 最常见的英文定义是 ∀ data about
data#。可直译为描述数据的数据, 国际图书馆协会联盟
( International Federation of Library Associations and Institutions,
简称 IFLA) 对元数据是这样定义的: 描述资料的资料, 可
用来协助对于网络电子资源的辨识、描述、指示其位置的
任何资料。我们可以用一个简单的例子来说明; 有一本书
∃政治经济学% , 我们对它的书名、作者、出版社等信息做
一个简单的摘要, 那么这个摘要信息就可以称作元数据。
同样的, 关于物质世界的和初始事物的简单 (相对于源)
再描述所得到信息都可以称作元数据, 例如, 对一个人的
姓名、出生地、生日、年龄、身高等的描述数据也都是元
数据。这就是元数据的一般定义。
在目前的几十种元数据格式中, 图书馆届比较熟悉也
比较看重的则是都柏林核心集这个元数据格式。
1995年 3 月由 OCLC和 NCSA主持, 在美国俄亥俄州的
都柏林镇召开了第一届元数据研讨会, 提出了都柏林核心
集元素集 ( Dublin Metadata Core Element Set, 简称 Dublin Core
或DC) , 其目的是给非专业图书馆人员提供一种能轻易掌
握和使用的网络资源著录格式, 从而提高网络资源的开发
利用率。DC 元数据的产生主要由两种途径: 一是通过
OCLC 网络编目软件直接制作, 在空白的工作单中按 DC 著
录规则, 填写每个字段的
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
, 或录入人员根据自己熟悉
的格式输入数据, 系统将这些格式的数据自动生成 DC 元
数据。二是通过 import的方式来获取, 首先将记录从其它
系统中以 ISO�2709 通讯格式按纯文本输出, 并粘贴到 import
文本框中, 然后转入 CORC系统。DC 元数据已被结构化并
支持字段查询。
DC 的整个框架简洁, 著录项具有灵活性、规模最小且
意义明确, 通俗易解, 任何制作者无需经过专门培训就可
以为自己的文件创建元数据。目前国际上已有英语、德语、
日语、葡萄牙语、西班牙语等 10余种不同语种的版本。
2 文献编目的定义及发展
文献编目学是在文献出现, 并达到一定规模之后, 人
们出于集中收藏、整理、检索等方面需要, 集中反映文献
实体而逐步发展起来的一门学科。文献编目是针对用户检
索利用文献的特点, 通过特定的记录方式, 从外部特征的
描述与内容实质的揭示反映文献实体。
书目数据是文献的抽象物, 是文献的缩影。文献编目
就是形成书目数据的过程。首先, 编目员通过比较、分析、
综合、抽象、概括、演绎、归纳等思维过程, 完成对客观
存在的文献实体的认识, 然后, 再将反映到自己头脑中的
这种认识采用简洁的编目语言将它们浓缩成书目数据, 完
成了由实践 (文献实体) � � � 认识 ( 编目员的思想意
识) � � � 实践 (书目数据) 这样一次顺向的由具体到抽象
的认识运动过程。用户由书目数据的具体描述与反映的文
献外部特征与内容实质, 通过一系列同样的逻辑思维, 认
识具体文献, 完成从书目数据 (实践 ) � � � 用户的思想意
识 (认识) � � � 文献实体 (实践) 这样一次逆向的由抽象
到具体的认识运动过程。当然, 对文献实体仅知一鳞半爪
�14�
现代情报 2003年 6 月 第 6期
June�2003 No. 6
&
理论探索
的用户 也可以利用书目数据完善自己的认识。
现代科技日新月异, 尤其是计算机和通信技术的突飞
猛进, 给文献编目也带来了新的技术。机读目录格式
( MARC) 于 60 年代末、70年代初开始在北美首先应用, 并
推动图书馆进入了自动化阶段。
MARC是用于描述、存储、交换、控制和检索的一套
机读书目数据
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
。它开始主要针对印刷型书本的描述,
随着 856 字段的引入, USMARC 也逐步被用来对电子资源
进行描述。它的数据结构严密, 能很好地描述电子信息,
尤其是在检索点的选取原则上, 能确保其数据元素组成具
有统一性, 有利于资源交换。此外, 这种经过编目人员过
滤、筛选过的信息, 确保了数据描述的可靠性、完全性和
精确性。CNMARC (中国 MARC) 是在 UNI�MARC (国际通
用MARC) 的基础上发展起来的, 它有 479 个字段, 这些字
段是针对能著录多种文献类型及多文种文献而制定的, 数
据格式结构复杂繁多, 使用时, 用其所有字段, 只需结合
著录的文献类型与文种等实际情况选择适用的机读目录格
式字段形成数据。
3 元数据与文献编目的联系与区别
从最广泛也是最简单的意义上讲, 元数据就是关于数
据的数据, 从这个涵义上讲, 传统图书馆所使用的卡片式
目录, 书本式目录以及机读目录等编目数据都属于广义上
的元数据。但是, 远数据却并不属于编目数据, 有些图书
馆员从本专业的角度出发, 将元数据 (特别是 DC) 看作是
一种被简化的编目格式, 认为元数据时机读目录的网络缩
微版。但事实上, 二者是有区别的。尽管有些元数据的标
准正在积极地向某些图书馆编目的标准靠拢, 但却不能说
元数据就是图书馆编目记录, 而且大多数这样的记录并不
打算发展成为图书馆编目记录。与此同时 , 基于元数据简
单、灵活、实用, 没有严格的编码规则, 可由非专业人员
提供的特点, 有些人就提出应放弃机读目录这样一个狭隘
的概念, 转而使用元数据这样一个较为模糊, 能为大多数
人所使用的概念, 并逐步用元数据代替机读目录。针对这
两种观点, 我在此论述一下二者的联系与区别。
3�1 文献编目与元数据的联系
3�1� 1 二者著录的目的相同
文献编目是为了帮助读者在茫茫书海中尽快的寻找到
所需要的文献 , 因此对文献的外部特征和内部特征进行了
描述。
元数据是为了帮助用户对网络信息资源实现有效、快
速、准确的查找而产生的, 因此它对网络信息资源进行了
描述。
3�1� 2 是对信息资源的特征进行著录
完整的文献目录通常由题名项与责任者项、版本项、
文献特殊细节项、出版发行项、载体形态项、丛编项、附
注项、标准编号及获取方式项组成。通过文献特征的揭示,
可以帮助读者认识、分析文献, 进而选取文献元数据的基
本作用可以概括为描述、定位、搜寻、评估和选择, 即描
述网络信息资源的性质与内涵, 提供资源储存位置的信息
和有关如何找到所需资源的信息, 帮助用户判断资源的价
值等。如 DC 元数据提供对资源内容、知识产权和外部属
性的描述, 包括 15 种基本元素: 题名、主题、描述、来
源、语种、管链、覆盖范围、创造者、出版者、其他责任
者、权限管理、日期、类型、格式、标识。通过元数据可
以了解网络信息资源类型、作者、出版者、主题与关键词
等信息。
3�2 元数据与文献编目的区别
3� 2� 1 数据的形式不同
DC包含有 15 个基本著录项: 题名 ( Title )、主题
( Subject )、说明 ( Description)、语 种 ( Language )、来 源
( Source)、关联 ( Relation)、覆盖范围 ( Coverage )、创建者
( Creator)、出版者 ( Publisher)、其他责任者 ( Contributors)、
权限 ( Rights)、日期 ( Date)、类型 ( Type)、标识 ( Identifi�
er)、格式 ( Format)。这 15项可重复使用或有选择性使用,
还可以拥有子类型和子模式。数据可通过直接利用 XML、
HTML、RDF等标记语言或通过使用本地或网络数据库应用
软件制作而成。
文献编目所采用的MARC 格式主要由 3部分组成: 头标
区、目次区、数据区。头标区位于每条记录的开端, 共有 24
个字符长度,提供此记录的必要参数;目次区是MARC 记录
中每个可变长字段的索引,由一系列固定长数据项目组成,
包括每个可变长字段的字段标识符、字段长度和字段起始字
符位置,每项 12 个字符位, 在终端上不显示; 数据区由多个
可变长字段组成,每个字段间由字段分隔符隔开, 是著录资
料信息的具体体现, MARC 格式的著录就是将图书馆的各种
信息资源进行综合分析处理, 提取主要的信息要素, 按一定
的
规范
编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载
格式组织起来, 提供给人们检索,数据可利用能生成
ISO�2709 格式的各种软件来制作。
3� 2� 2 描述的对象不同
文献编目描述的对象一般是指本馆收藏的各种文献,
其数量、范围、格式都是明确的。存储信息的载体是书本、
杂志、报刊或磁带、磁盘等有形的实体。
元数据描述的对象一般是数字化了的网络信息, 比如
网络资源、数字多媒体资料等。网络信息常常无详细的作
者, 且内容经常更新、出版时间不定、其地址经常被移动
或更改。数字化信息还具有传统印刷型信息所不具备的一
些特征, 例如它是机读型信息, 必须借助计算机及网络来
读写和传播。
3� 2� 3 著录的详简程度不同
DC 的著录相对比较简单, 以 ∀ 建立一套简洁有弹性,
且非专业图书馆人员也可轻易掌握和使用的资源著录格式#
为目标, 提供一种比图书馆现行编目更有效率的方法, 整
个框架简洁明了, 制作者无需经过专门培训就可以创建自
己文件的元数据。
而文献著录就要复杂的多,就以现在图书馆员通过的编
目格式MARC 为例, MARC 经过多年的发展, 成为系统较完
善、类目(或称字段)较完备、标准较严密的一种数据描述格
式。由于MARC 需要在专门的系统中使用和输出著录结果,
产生了众多的字段、子字段及其标识符和繁杂的头标区, 在
开放式的网络系统中有些是不需要的。MARC 的编目规则
追求的是详尽、细致的著录, 而对用户考虑较少。
3� 2� 4 著录的效果不同
文献经过编目加工后形成了各种书目, 它不是随便堆
砌的, 而是按照科学方法使之有序化, 从 (下转第 18页)
�15�
2003年 6 月 第 6期
June�2003 No. 6 现代情报
&
理论探索
3�3 序化系统功能的改进
信息经过组织后, 形成一个有序的信息系统, 其主要
功能是向用户提供所需的信息。但该系统是被动的, 只能
被动地处理已存在的各种信息, 不能处理人的智慧和经验;
信息系统是一种静态的、列举式的结构, 不能展示人类知
识创造的动态逻辑过程; 信息系统缺少推理功能, 不能从
存贮的信息中推理导出其它有用的信息。信息系统中的信
息元素是可以重复的, 大量相同的信息占据着系统的空间,
使系统显得庸肿、低效。
序化后的知识系统, 其主要功能是适时地将知识传播
到适当的地方, 适当的人。知识系统不仅存贮显性知识,
而且还能挖掘并存贮人的智慧和经验等隐性知识, 并且模
拟人的感觉和思维过程的规律进行组织, 按照一定的推理
策略, 提供问题的解决
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
。知识系统中的知识元素具有
唯一性, 不可能出现两个相同的知识元素 , 从而系统工作
效率明显提高、结果准确。
3�4 研究对象的拓展
信息组织仅局限于对已存在的信息的组织, 对于存贮
于人脑中的隐性知识则无能为力。知识组织则不仅对显性
知识进行组织, 而且还主动去探索人类的精神世界, 并力
图从中挖掘出对社会发展有价值的隐性知识, 以实现知识
的全面共享, 促进知识创新。
3�5 组织方法的发展
信息组织方法一般分为三个层次: 语法信息组织、语
义信息组织、语用信息组织, 分别对应着信息的形式、内
容和效用三个层次。根据知识组织的语言学原理, 同样可
以划分为这三个层次, 而且信息组织的一些方法可以移植
到知识组织中使用, 如分类法、主题法。这些组织方式都
是列举式的静态结构, 而当代人工智能的研究, 为促使人
们去探索、研究新的知识组织方法与知识组织系统开辟了
广阔的发展前景。其研究包括: 知识库的建立、获取、更
新与维护; 知识库的整序方法包括顺序、索引、散列、树
型等结构及数据字典的使用; 层次结构的规则库; 专家系
统的知识组织方式方法等。
4 结束语
通过以上对信息与知识的分析、信息组织与知识组织
的发展历程的介绍及两者的比较分析, 我们可以得出如下
结论: 信息组织是知识组织的基础, 知识组织是信息组织
的深化和发展。
参 考 文 献
[1] 王方华. 知识管理论 [ M ] . 山西: 山西经济出版社,
1999.
[ 2] 吴江. 知识创新运行论 [ M ] . 北京: 新华出版社,
2000.
[ 3] 刘洪波. 知识组织论 � � � 关于图书馆内部活动的一种
说明 [ J] . 图书馆, 1991, ( 2) .
[4] 王知津. 知识组织的研究范围及发展策略 [ J] . 中国
图书馆学报, 1998, ( 4) .
[5] 田书格. 知识组织浅论 [ J] . 图书馆理论与实践,
1999, ( 3) .
[ 6] 王知津. 知识组织的目标与任务 [ J] . 情报理论与实
践, 1999, ( 2) .
[ 7] 韩喜运. 图书馆知识组织问题 [ J] . 情报学报, 2002,
( 1) .
[ 8] 马费成. 知识组织系统的演进与评价 [ J] . 知识
工程
路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理
,
1989, ( 2) .
[ 9] 霍国庆. 论信息组织 [ J] . 情报资料工作, 1997, ( 6) .
[10] 王知津. 从情报组织到知识组织 [ J] . 情报学报,
1998, ( 3) .
(上接第 15 页)
而形成一个有组织的严密的整体。在文献内容的揭示上,
它主要通过分类检索语言与主题语言概念来实现。主体检
索语言选用的是受控词汇, 通过概念组配 , 以最能反映学
科的词汇为基础, 全面反映文献的各种特征, 由于反映的
是文献的核心词汇, 查准率和查全率较高。
元数据产生的目的之一就是避开象机读目录那样必须
由专业人员来著录的缺点, 它计划由非专业人员来标引。
由于元数据须由人工来进行一些前期工作, 而在开放性的
网络环境下, 网页的作者来自不同专业领域, 背景不同、
制作目的不一 , 因此除非是有某种机制强制性规定网页必
须加入元数据 , 否则大多数的作者还是不知道或者不会或
者不愿意加入或者即使加入元数据, 质量也很难保证。这
样造成的结果就是当用户在网络上检索资料的时候, 输入
一个关键词后, 检索的结果却有成千上万条记录, 给用户
带来的是茫然和大量的工作。
通过以上分析可以得出: 元数据与文献编目既有联系,
又有区别, 在组织信息资源时, 元数据与文献编目各有自
己的优势与不足, 不能互相取代。在将来的应用中, 我们
应该发挥二者的优势, 尽量避免二者的不足。对于普通的
信息资源可以用元数据格式来标引, 但对于比较重要的信
息使用文献编目来详细著录, 使二者能扬长避短, 共同发
挥作用。
参 考 文 献
[ 1] http: ∋www. library. hn. cn�tsg�20000423�Content�00045245.
htm [ EB]
[ 2] 孙媛. 元数据 � � � 数字图书馆的编目规则 [ J] . 图书
馆自动化, 1999, ( 5) : 14� 16.
[ 3] 樊绍明, 杨红, 夏叶冰. 元数据与文献编目的异同
[ J] . 图书情报工作, 2002, ( 6) : 72� 74.
[ 4] 范亚芳, 韩莉莉. 对网络环境下图书馆编目工作的再
认识. 2001, ( 8) : 48� 50.
[ 5] http: ∋www. metadata. com. cn�research. html [ EB]
[ 6] http: ∋www. library. sh. cn�libnet�sztsg [ EB]
[ 7] http: ∋www. loc. gov�marc�[ EB]
[ 8] http: ∋datf. iis. sinica. edu. tw�Link�Index . jsp [ EB]
�18�
现代情报 2003年 6 月 第 6期
June�2003 No. 6
&
理论探索