国图采编网-中国国家图书馆·中国国家数字图书馆 |
您所在的位置:网站首页 › 图书简介什么意思 › 国图采编网-中国国家图书馆·中国国家数字图书馆 |
第一届全国图书编目工作研讨会优秀论文选 - MARC21元数据与CNMARC元数据的分析比较 李燕,杜薇薇,郭华 中国科学技术信息研究所信息资源中心资源建设部采编组,北京,100038 摘 要:元数据是指数据的数据。人们熟悉的DC是元数据,MARC21和CNMARC也是元数据。MARC元数据是一种计算机交换格式,主要是为在系统间交换书目数据和相关信息而设计。本文对MARC21和CNMARC的比较是从书目数据格式的角度展开的,并未涉及MARC21的馆藏数据格式、规范数据格式、分类数据格式和社会信息格式。 关键词:MARC21;CNMARC;机读目录格式 1 MARC21与CNMARC的概述 1.1 MARC21的发展概况 MARC21是以机读形式表示和传输书目记录和相关信息的标准,是由一系列的代码和内容指示符组成,其目的是为了定义五种类型的数据:书目数据、馆藏数据、规范数据、分类数据和社会信息。然而,MARC21并不是一个新的格式,而是为适应各类型文献记录在不同系统间的交换以及实现格式一体化的需要而产生的。它由美国国会图书馆与加拿大国家图书馆联合编写,是一个将USMARC和CAN/MARC相融合的MARC格式,是两者的延续。 MARC格式的统一和融合是由经济原因促成的。长期以来美国国会图书馆、大英图书馆和加拿大国家图书馆都在寻求降低编目成本的方法,而简化编目正是一种可行的方法。一个图书馆可以通过使用采用其他馆制作的现成编目记录来降低自己的编目费用,然而要实现书目数据的共享或复制编目记录就需要在编目规则和数据格式上达成一致,以促成记录的内容相一致,并且在不同的目录系统中可进行无障碍地导入和导出。1994年的一次会面使美国国会图书馆、大英图书馆和加拿大国家图书馆意识到使用统一的MARC格式可易化书目信息的交换。1997年2月,USMARC和CAN/MARC两种MARC格式实现了统一,新的MARC格式在1998年被命名为MARC21(即:21世纪的MARC),而未采用IMARC这个具有双重含义(International MARC和Integrated MARC)的名称,这主要是考虑到欧洲国家对以IMARC命名新格式所持的消极态度以及IMARC和IFLA编制的UNIMARC在名称上具有敌对性。 MARC21共有五种执行格式,即:MARC21书目数据格式、MARC21馆藏数据格式、MARC21规范数据格式、MARC21分类数据格式和MARC21社会信息格式。MARC21的书目数据格式是对编码描述、检索和控制不同形式信息资源的数据元素进行详细说明;馆藏数据格式对如何编码各种形式信息资源的馆藏数据与位置数据进行详细说明;规范数据格式对如何编制用于识别书目记录中的内容并保持其唯一性和一致性的规范记录予以了说明,目的是通过编制规范记录实现对书目记录的控制;分类数据格式用于编码分类号、相关说明等数据元素,按分类数据格式建立的分类记录可被用于维护和发展类表;社会信息格式则是用于说明如何建立与事件、项目、服务等相关的非书目信息记录,这些信息可整合到公共查询目录中供用户查询。 目前,MARC21还在不断的修改完善过程中,各个图书馆都在为改进MARC21而不时地提出各种建议。例如:大英图书馆在2002年作为UKMARC的使用者提出了一些对MARC21格式的一些建议,以便两种格式能相互兼容合作;2005年北美艺术图书馆协会(Art Libraries Society of North America)和视觉资源协会(Visual Resources Association)提出为区分知识内容的标引词与视觉描述的标引词而修改MARC的编码系统。在收到来自各方的建议后,负责维护MARC21的MARC顾问委员会(MARC Advisory Committee)会对提出的建议展开讨论,通过投票或会议等方式做出最后的决定,并对MARC21进行必要的修改。因此,五种MARC21格式每年都会有不同程度的更新。 1.2 CNMARC的产生与发展 1986年,由于USMARC和UNIMARC的问世,中国机读目录的研制工作提到议事日程,我国开始参照UNIMARC编写中国的MARC格式。1992年,北京图书馆自动化发展部编写的《中国机读目录通讯格式》(China MARC format,简称CNMARC)问世。1996年2月6日,中华人民共和国文化行业标准《中国机读目录格式》(China MARC Format)正式发布,1996年7月1日起实施。该标准根据我国文化部科技司于1993年3月向北京图书馆下达的研究任务而制定,目的是推进书目数据的规范与统一、加速我国文献信息网络的建设以及实现国内外书目信息的共建共享。2004年,北京图书馆出版社出版了国家图书馆编的《新版中国机读目录格式使用手册》(New China MARC Format Manual)。 2005年7月,在《新版中国机读目录格式使用手册》基础上修订而成的《中国机读目录格式》(China MARC Format)国家标准通过专家评审,现已上报全国信息与文献工作标准化技术委员会和国家标准化管理委员会(the Standardization Administration of China)。《中国机读目录格式》国家标准虽然是依据UNIMARC编写的,但两者仍有差异。首先,CNMARC不是对UNIMARC的简单照抄照搬,而是中国化的MARC格式。第二,它根据信息资源的发展和用户需求增加或删减了一些字段和附录。第三,在编排格式和体例结构上,它不仅遵循我国国家标准的编写法,而且兼顾了MARC格式的特殊要求。尽管两者存在差异,但CNMARC最大限度地方便了国内外书目信息的交换与共享。
2 MARC21与新版CNMARC的记录结构 在机读目录中,一条记录相当于传统卡片目录中的一张款目。传统的款目由若干个著录项目构成,著录项目又是由若干个著录单元组成的;而MARC书目记录则由字段、子字段以及数据元素组成。记录结构是机读记录的整体框架,规定数据记载在计算机媒体上的具体方式,在这方面,MARC21元数据与CNMARC元数据大同小异。 《MARC21简明书目数据格式》明确规定MARC21的逻辑记录由记录头标(leader)、地址目次区(directory)以及可变长字段(variable fields)三部分构成;而2004年国家图书馆编的《新版中国机读目录格式使用手册》(以下简称新版CNMARC)则规定,新版CNMARC的逻辑记录由记录头标区、地址目次区、数据字段区以及记录结束符四部分构成,详见表1。 表1:新版CNMARC与MARC21机读记录基本结构对照表 MARC21机读记录基本结构 CNMARC机读记录基本结构 记录头标
记录头标区
地址目次区
地址目次区
可变长字段 可变长控制字段 00X 控制信息、识别号和分类号等
数据字段区 0--标识块 可变长数字字段 01X-09X 号码和代码 1--编码信息块
20X-24X 题名和与题名相关的字段 25X-28X 版本、出版说明字段 3XX 载体形态等 4XX 丛编说明 2--著录信息块
5XX 附注 3--附注块
70X-75X 连接款目 4--款目连接块
830 丛编附加款目----统一题名 5--相关题名块
6XX 主题检索 6--主题分析块 (续上表) MARC21机读记录基本结构 CNMARC机读记录基本结构
可变长字段
可变长数字字段 1XX 主要款目标目 70X-75X 附加款目 80X-811 丛编附加款目----个人名称、团体名称、会议名称
数据字段区 7--知识责任块 841-88X 馆藏、交替图形文字、电子资源定位与检索等 8--国际使用块
记录结束符
从表面上看,MARC21机读记录与新版CNMARC机读记录的基本结构有所不同。事实上,两者逻辑记录的基本结构大同小异,其区别在于:第一,MARC21将可变长字段(Variable fields)分为可变长控制字段(Variable control fields)和可变长数据字段(Variable data fields)两部分,“可变长数据字段”又是由若干字段构成;而新版CNMARC则是将“数据字段区”分为9个功能块,每个功能块由若干字段组成。第二,新版CNMARC从文字上明确规定将“记录结束符”作为机读记录的一个组成部分;而MARC21机读记录虽有“记录结束符”,只是在记录结构的文字说明中未注明。 3 记录头标 记录头标(Record label)位于一条书目记录的开端,记载了该记录的有关参数,是向计算机提供处理机读书目记录的有关参数的定长区。MARC21与新版CNMARC的记录头标均为24个字符长,由固定长数据元素组成。但是,两者在数据元素的设置、层次以及名称方面有所不同,见表2。 表2:MARC21与CNMARC记录头标数据元素对照表 MARC21记录头标 CNMARC记录头标 数据元素名称 字符位置 数据元素名称 字符位置 记录长度(record length) 00-04 记录长度 0-4 记录状态(record status) 05 记录状态 5
执行代码 6-9 记录类型(type of record) 06 记录类型 6 书目级别(bibliographic level) 07 书目级别 7 控制类型(type of control) 08 层次等级 8 字符编码体系(character coding scheme) 09 未定义 9 指示符长度(indicator count) 10 指示符长度 10 子字段标识符长度(subfield code count) 11 子字段标识符长度 11 数据基地址(base address of data) 12-16 数据基地址 12-16
记录附加定义 17-19 编目等级(encoding level) 17 编目等级 17 描述性编目形式(descriptive cataloguing form) 18 著录格式 18 连接记录要求(linked record requirement) 19 未定义 19 地址目次区项目结构(entry map) 20-23 地址目次区项目结构 20-23
(续上表) MARC21记录头标 CNMARC记录头标 “字段长度”的长度(length of length-of-field portion) 20 “字段长度”的长度 20 “起始字符位置”的长度(Length of the starting-character-position portion) 21 “起始字符位置”的长度 21 “执行定义部分”的长度(Length of the implementation-defined portion) 22 “执行定义部分”的长度 22 未定义(Undefined Entry map character position) 23 未定义 23 表2中的信息表明:MARC21与新版CNMARC的记录头标区的长度相同;两者都可以由计算机自动生成记录长度、指示符长度、子字段标识符长度、数据基地址、地址目次区结构以及尚未赋值的数据元素,除此而外的数据元素中的值需人工录入。 两者的差异在于:第一,在头标区字符的定义方面,MARC21字符位8定义为“控制类型”,而新版CNMARC字符位8则定义为“层次等级”;MARC21字符位9和19则分别定义为“字符编码体系”和“连接记录要求”,而新版CNMARC字符位9和19均未定义。第二,在数据元素的赋值方面,MARC21与CNMARC略有区别。在MARC21中,记录状态中设有表示“由简编纪录升级的记录”的代码“a”;但在CNMARC中无此记录状态。
4 MARC21变长控制字段与新版CNMARC编码信息块的对比 MARC21的变长控制字段设置了001控制号(Control number)、003控制号标识(Control number identifier)、005记录最后处理日期与时间(Date and time of latest transaction)、006固定长数据元素——附加资料特征(Fixed-length data elements-additional material characteristics)、007载体形态定长字段——一般信息(Physical description fixed field-general information)、008固定长数据元素——一般信息(Fixed-length data elements- general information)。普通图书不设007字段,007字段只适用于地图、地球仪、投影图像资料、缩微制品、非投影图像资料、电影、录音制品以及录像制品。下面着重对MARC21的001、003、008三个字段与新版CNMARC编码信息块进行分析比较。 4.1 001控制号 MARC21的“001控制号”(Control Number)是MARC记录的识别号,在书目数据库中具有唯一性,由编制、使用或发行记录的机构设置,用于识别特定的MARC记录。MARC21的001字段无字段标识符,也不设子字段;既没有规定其长度,也没有规定其结构。2000年后,美国国会图书馆(The Library of Congress,简称LC)记录控制号由控制号前缀、记录入档年以及记录号以及补编号三部分构成,是个固定长字段(12个字符长)。 例1:001 ##2001256543 例1是美国国会图书馆记录控制号的构成成分,例中的“##”表示字符位00-01为控制号前缀,“2001”表示字符位02-05为记录入档年,“256543”表示字符位06-11为记录号。 新版CNMARC的001记录标识号“可以由用户自行规定,没有任何限制”。 例2:001 CAL#012005001938 例2是CALIS 记录控制号的构成成分。它由机构代码、MARC记录前缀、资料类型代码、文献语种代码、记录入档年、记录流水号六部分组成,是固定长字段(16个字符长)。例中的“CAL”表示字符位0-2为机构代码,“#”表示字符位3为MARC记录前缀,“0”表示字符位4为资料类型代码(普通图书),“1”表示字符位5为文献语种代码(中文),“2005”表示字符位6-9为记录入档年,“001938”表示字符位10-15为记录流水号。 由此可见,MARC21与新版CNMARC在记录控制号方面,尽管前者是固定长字段,后者是可变长字段;但两者的记录控制号均未结构化,其记录控制号的结构由各个书目机构自行规定。 4.2 003控制号标识 MARC21的“003控制号标识”(Control Number Identifier)字段是用来记载分配给001控制号的机构代码,而新版CNMARC未设立此字段。 例:001 ##2002026217 003 DLC [注:“DLC”美国国图书馆的机构代码] 4.3 008定长数据元素——一般信息 美国MARC21的 “008定长数据元素——一般信息”(Fixed-Length Data Elements-General Information)字段是个必备字段,是以代码形式反映受编文献的书目特征,用于检索和数据管理。MARC21的008字段是定长字段,共40个字符位(00-39)。MARC21的008字段设置了记录入档日期、出版日期类型、日期1、日期2、出版地、语种、修改记录、编目来源这8个通用数据元素。除此而外,它还根据图书(Books)、计算机文档(Computer files)、地图(Maps)、乐谱(Music)、连续性资源(Continuing Resources)、可视资料(Visual Materials)、混合资料(Mixed Materials)的不同特征设置了1个专用数据元素(字符位18-34)。现以图书为例,着重分析比较MARC21普通图书的008字段和新版CNAMRC的编码信息块,详见表3。 表3:MARC21普通图书的008字段和新版CNAMRC编码信息块的对比 MARC21 新版CNMARC 字符位置 数据元素 备 注 字段 字符位置 数据元素 00-05 记录入档日期 通用数据元素 100通用处理数据 0-7 记录生成时间 06 出版日期类型 通用数据元素 8 出版时间类型 07-10 日期1 通用数据元素 9-12 出版年1 11-14 日期2 通用数据元素 13-16 出版年2 15-17 出版地 通用数据元素
18-21 图表 图书专用 105 编码数据字段:文字资料、专著 0-3 图表 22 读者对象 图书专用 100通用处理数据 17-19 阅读对象代码 23 载体形态 图书专用
24-27 内容特征 图书专用 105 编码数据字段:文字资料、专著 4-7 内容类型代码 28 政府出版物 图书专用 100通用处理数据 20 政府出版物代码 29 会议出版物 图书专用 105 编码数据字段:文字资料、专著 8 会议代码 30 纪念文集 图书专用 9 纪念文集指示符 31 索引 图书专用 10 索引指示符 32 未定义 图书专用
33 文学体载 图书专用 105 编码数据字段:文字资料、专著 11 文学体载代码 34 传记 图书专用 12 传记代码 35-37 语种代码 通用数据元素
100通用处理数据 22-24 编目语种代码 38 修改记录 通用数据元素 21 变更记录代码 39 编目来源 通用数据元素
100通用处理数据
25 音译代码
26-29 字符集
30-33 补充字符集
34-35 题名文字代码 从表3中,我们不难看出,在定长字段元素的分类方面,无论是美国的MARC21还是我国的CNMARC都将定长数据元素分为通用数据元素与专用数据元素两个类,其差异表现在以下几个方面: 第一,定长字段数据元素设置的详简程度不同。MARC21将定长数据元素都归入008字段,在008字段中区分通用数据元素与专用数据元素;而新版CNMARC则是首先区分各类信息资源的通用数据元素和专用数据元素。新版CNMARC通用数据元素启用“100通用处理数据”字段,各类信息资源的专用数据元素则选用105至192字段。例如,普通图书和电子资源除了启用100字段外,还须分别启用“105编码数据字段——文字资料——专著”和“106编码数据字段:电子资源”。MARC21的做法可以汇总同类数据,简化机读记录的结构,压缩MARC手册的篇幅;但在可操作性方面却不如新版CNMARC条款清晰,便于编目员使用。 第二,信息资源类型的划分方法各异。MARC21的008字段只涉及图书、计算机文档、地图、乐谱、连续资源、可视资性料、混合资料这7类信息资源;而新版CNMARC在编码信息块中不仅为图书、电子资源、测绘资料、乐谱、连续出版物、投影录像资料和影片这几类文献设置了专用字段,而且还为书画刻印作品、三维制品和实物、录音资料、缩微制品、古籍、拓片等设置了专用字段。从定长数据元素的涉及面分析,新版CNMARC所包括的信息资源类型比MARC21广泛。由于MARC21与新版CNMARC在这一点差别较大,致使字段设置有别。 第三,数据元素的设置有别。在数据元素的设置方面,在MARC21的008字段中设置了“出版地”数据元素,而CNMARC在编码信息块的字段中均未设立这一数据元素,却在“100通用处理数字”设立了“音译代码、字符集、补充字符集、题名文字代码”这几个通用数据元素。 第四,数据元素的赋值各式各样。在数据元素的赋值方面,MARC21 008字段数据元素的赋值,与CNMARC有关字段相比,有的完全对等(例:MARC21 008字段中的“日期1”和“日期2”这两个通用数据的赋值与CNMARC“100通用处理数据”字段中“日期1”和“日期2”的赋值完全相同。又如,MARC21 008图书字段中的“图表”数据元素的赋值与CNMARC 105字段中“图表”元素的赋值也完全对等。有的大同小异,有的则截然不同。
5 MARC21与CNMARC的字段对应关系及其问题 在MARC21与新版CNMARC常用数据的转换方面存在以下几种对应关系。 5.1 一对一的转换关系 所谓一对一的转换关系是指MARC21的一个字段或子字段可直接转换为与之对等的CNMARC的字段或子字段。例如,MARC21的“020国际标准书号、022国际标准连续出版物号、040编目来源、041语种代码、245题名说明、250版本说明、260出版发行项、300载体形态、500一般性附注、505内容附注、600主题附加款目—个人姓名、630主题附加款目—统一题名、650主题附加款目—论题性词语、651主题附加款目—地理名称、760主丛编款目、762附属丛编款目、765原著款目、767译著款目、100主要款目标目—个人名称、130 主要款目标目—统一题名”分别对应新版CNMARC的“010国际标准书号、011国际标准连续出版物号、801记录来源、101作品语种、200题名与责任说明、205版本说明、210出版发行项、215载体形态、300一般性附注、327内容附注、600个人名称主题、605题名主题、606论题主题、607地名主题、410丛编、411附属丛编、453译为、454译自、700 个人名称—主要知识责任、500统一题名”。这些字段具有一对一关系,可通过数据转换程序相互转换书目信息。 例:MARC21机读记录 245 10 $aMechanical engineering systems $h[electronic resource] $cRichard Gentle, Perter Edwards, W. Bolton. 260 ## $aOxford ; $aWoburn, MA : $bButterworth Heinemann, $c2001. 300 ## $a310 p. : $bill. ; $c27 cm. 500 ## $aIncludes index. 100 1# $aGentle, Richard. 700 1# $aEdwards, Peter. 700 1# $aBolton, William, $d1933-
新版CNMARC机读记录 200 1# $aMechanical engineering systems $b[electronic resource] $fRichard Gentle, Perter Edwards, W. Bolton. 210 ## $aOxford $aWoburn, MA $cButterworth Heinemann $d2001 215 ## $a310 p. $cill. $d27 cm. 320 ## $aIncludes index. 700 #1 $aGentle, $bRichard. 701 #1 $aEdwards, $bPeter. 701 #1 $aBolton, $bWilliam, $f1933- 5.2 一对多的转换关系 一对多的转换关系是指一个MARC21字段或子字段可以转换成多个CNMARC的字段或子字段。例如,MARC21的008字段中的数据元素与新版CNMARC的100、102、105、106字段具有对应关系。又如,MARC21的“246变异题名”(varying form of title)中的数据,根据指示符2的赋值,可分别对应新版CNMARC的“510并列题名”、“517其他题名”、“512封面题名”、“513附加题名”、“514卷端题名”、“515逐页题名”、“516书脊题名”这几个字段。这类对应关系可通过数据转换程序相互转换书目信息,但要注意字段指示符的赋值,方可正确转换书目数据。 例1:MARC21的008资源与CNMARC的编码信息块 MARC21机读记录:008 001106d2001####cc#a#####b####000#1#chi##
新版CNMARC机读记录:100 ## $a20011106d2001####emky0chiy0120####ea 101 0# $achi 102 ## $aCN$b110000 105 ## $aak##a###001yy 例2:并列题名 MARC21机读记录 245 10 $a新英汉词典 =$bA new English-Chinese dictionary 246 31 $bA new English-Chinese dictionary 新版CNMARC机读记录 200 1# $a新英汉词典 $d=A new English-Chinese dictionary 510 1# $aA new English-Chinese dictionary
例3:封面题名 245 14 $aThe complete Star Ship :$ba simulation project 246 34 $aStar Ship simulation
新版CNMARC机读记录 200 1# $aThe complete Star Ship $ba simulation project 512 1# $aStar Ship simulation 5.3 多对一的转换关系 所谓多对一的转化关系是指数个MARC21字段或子字段对应一个CNMARC字段或子字段。例如,MARC21的“500一般性附注”和“504参考书目附注”对应新版CNMARC的“320书目、索引附注”字段。又如,MARC21的“440丛编说明/丛编附加款目——丛编名”和“490丛编说明” 对应CNMARC的“225丛编项”字段。此外,当中文书目数据库不设主要款目标目的前提下,MARC21 的“100主要款目标目—个人名称”和“700附加款目标目—个人名称”这两个字段中的数据与CNMARC“701个人名称——主要知识责任”字段对应。 例:知识责任的检索点 MARC21机读记录:245 10 $a现代伦理学 /$c王正平,周中之著 100 1# $a王中平 700 1# $a周中之 CNMARC机读记录:200 1# $a现代伦理学 $f王正平,周中之著 701 #0 $a王正平 $4著 701 #0 $a周中之 $4著 综上所述,通过对MARC21与新版CNMARC两种元数据的比较分析,可以得出这样的结论:对于具有一对一关系、多对一关系或者一对多关系的字段、子字段或数据元素,MARC21与新版CNMARC可以通过转换系统相互转换书目数据。 目前,我们需要妥善解决两个问题。第一,需要全面地、仔细地分析比较这两种MARC元数据之间异同,甚至要分析到字段中各个数据元素地赋值、字段指示符的赋值以及子字段标识符的赋值。第二,MARC21与新版CNMARC尚存在许许多多无法对应的数据,这些数据的转换难题该如何解决,这是值得深入探讨的问题。如果不能妥善解决这两个问题,就难以完全实现MARC21与新版CNMARC的数据转换。
参考文献: [1] Library of Congress. Network Development and MARC Standards Office. MARC Standards. 2005-09-15[2005-10-20]. http://www.loc.gov/marc/ [2] 北京图书馆自动化发展部. 中国机读目录通讯格式. 北京:书目文献出版社,1991 [3] 中华人民共和国文化部. 中国机读目录格式:WH/T0503-96. 北京:中华人民共和国文化部,1996 [4] 国家图书馆编. 新版中国机读目录格式使用手册. 北京:北京图书馆出版社,2004
联络方式: 李燕 (1)通讯地址:北京市海淀区复兴路15号中国科学技术信息研究所信息资源中心资源建设部采编组 100038 (2)电话:(010)58882311 (3)E-mail:[email protected] 杜薇薇 (1)通讯地址:北京市海淀区复兴路15号中国科学技术信息研究所信息资源中心资源建设部采编组 100038 (2)电话:(010)58882311 (3)E-mail:[email protected] 郭华 (1)通讯地址:北京市海淀区复兴路15号中国科学技术信息研究所信息资源中心资源建设部采编组 100038 (2)电话:(010)58882311 (3)E-mail:[email protected]
|
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |