DC 元数据在成果地质资料编目中的应用
李 磊 李效广 张良军 郑锦娜 王心华
(天津地质调查中心)
摘 要 本文主要研究了 DC 元数据和成果地质资料编目之间的映射关系,探讨了如何在此基础上基于 XML schema 技术对生成的地质资料核心元数据进行建模,并利用其来构建分布式***享平台体系。
关键词 DC Dublin Core XML schema OAI 地质资料 编目
0 引言
成果地质资料是指各类地质工作或专题研究项目完成时,按相应技术规范的规定和原项目设计要求,以文字、图、表等形式提供的一整套科技文件材料。我国地质资料馆成果地质资料案卷级目录库多采用国土资源部颁布的《地质资料电子目录著录格式规定(试行)》或中国地质调查局发展研究中心制订的规则标准而建,文件级编目采用《原始地质资料清理数据库》系统标准。以这些标准完成的编目,在实现资料检索、传播、***享、服务、利用方面一直起着非常重要作用。然而,此类编目与地学数据库元数据抑或其他文献编目平台无法实现交换。事实上,成果地质资料作为一种地质专业文献,具有文献的***性,与其他文献目录库互为交换是必要的,特别是与地学信息元数据实现***享是必要的。
元数据是关于数据的数据,是关于信息资源的形式、主要内容、存放位置等信息的综合。目前,元数据技术研究已经深入到各个领域,有专业领域的元数据,如关于地理空间数据的数字地理空间元数据、图书馆文献馆藏资源的机读目录。也有适用范围广泛的元数据,如都柏林核心元数据。笔者经过对比各种元数据,认为成果地质资料作为地质信息资源的重要载体,虽然有空间信息,但是其结构和内容并不符合空间数据的标准。成果地质资料作为一类文献资源,虽然可以以机读目录编目,然而机读目录由于其字段复杂,对录入人员专业要求较高,适用类型狭窄,故考虑到与其他类型资源的交换问题,其并不适于作为通用的元数据标准。而都柏林核心元数据(Dublin Core,DC)简单易用,其最初是为描述网络资源,现已发展成可以描述任何信息资源的元数据标准,应用范围广泛,便于组织与数据交换,可以提高检索数据的准确性。
笔者通过研究认为,利用都柏林核心元数据(DC 元数据)编目成果地质资料,可很好地解决异地多源数据***享的问题,会更有利于促进成果地质资料社会化服务。
1 成果地质资料编目与 DC 元数据的映射
1.1 成果地质资料编目
成果地质资料是指物理上的一套地质资料,除了其具有档案的基本编目信息外,还有具体的文件级资料内容信息。根据其内容形式的不同,成果地质资料文件由 8 类资源组成:正文、审批、附图、附表、附件、数据库和软件、多媒体和其他。这些资源信息全部以表的形式存储在成果资料目录数据库中[1]。
以原始地质资料清理数据库为例,成果地质资料案卷级编目主要字段包括馆藏机构编号、馆藏机构名称、资料编号、资料名称、资料类别、资料类型、语种、编写报告单位、编著者、形成(提交)时间、工作程度、密级、关键词、关键词(矿产)、地理坐标、行政区划、内容提要、工作时段,***计 18 个字段;文件级编目的所有 8 类资源的***有字段包括:资料编号和资料名称,其中审批需要增加审批机构和审批日期,附图则需要增加比例尺。
1.2 DC 元数据字段
都柏林核心元数据产生于 1995 年,经过 10 年不断扩展和完善,形成了 15 个基本核心元素,通过限定词对元素进行细化和修饰的元数据方案,用于描述越来越丰富的网络信息。DC 元素依据其所描述内容的类别和范围,可分为三组[2]:①资源内容描述类元数据项 7 个:分别为 Title、Subject、Description、Language、Source、Relation、Coverage;②知识产权描述类元数据项 4 个:Creator、Publisher、Contributor、Rights;③外部属性描述类。元数据项 4 个:Date、Type、Format、Identifier。具体字段的定义参见表 1。
DC 限定词是对 15 个元素的语义进行限定和修饰的词。它的制订遵循著名的向下兼容原则,即修饰词的语义包含于未修饰词中,在范围上对未修饰词的语义进行限定,在深度上对未修饰词的语义进行延伸[3]。
1.3 映射关系
笔者通过对比研究,认为:
(1)案卷级编目字段除了Format(格式)外,其余14个基本元素皆可与DC核心元素建立起对应关系。在覆盖范围(Coverage)元素中,由于地质资料兼具时间特征与空间特征,故采用限定词spatial(空间范围)和 temporal(时间范围)对覆盖范围进行描述;此外,由于成果地质资料部分元素具有行业特殊性,需要增加三个自定义字段作为补充,分别为Districts(行政区划)、DataCategory(资料类别)和WorkingDegree(工作程度)。而Relation(关联)与Contributor(其他责任者)在成果资料目录库中无对应字段,需要单独填写。其中Relation(关联)填写的内容为成果地质资料所含的所有文件级内容的唯一标识码,关系为部分为(HasPart),即所描述的案卷级资源在物理或逻辑上包含被参照文件级资源,Contributor(其他责任者)填写数据库录入人员姓名。
(2)文件级的各类资源中,由于各自属性内容有所差别,最终分为三类资源:第一类资源为正文、附表、附件、数据库和软件、多媒体和其他这六类文件级资源,均与 DC 核心元素建立起 4 个对应关系,其中 Format(格式)和 Relation(关联)这两个元素在库中无对应字段。需要说明的是:这里 Format(格式)填写的是地质资料的媒体类型和资源大小。在这六类资源中,数据库和软件、多媒体资源只有源电子文件[1],其余均有源电子文件和存档电子文件。Relation(关联)填写的是文件级资料所对应案卷级资料的唯一标识码,关系为部分于(is part of)。第二类资源为审批资源,其在第一类资源的基础上增加了Creator(创建者)和 Date(日期)两个元素来表示审批机构和审批日期。第三类资源为附图资源,其在第一类资源的基础上增加了自定义字段比例尺(Scale)。
通过将 DC 字段的定义和原始地质资料清理数据库中的字段定义进行比对,最终得出了 DC 元数据与该数据库字段的映射关系,案卷级编目对应关系如表 1 所示,文件级编目对应关系如表 2、3、4 所示,由此确定了成果地质资料核心元数据的元素集。在该核心元素集中,如果映射关系成立,则沿用 DC 元数据的元素名称,若未找到对应关系,则采用自定义元素名称。
表 1 DC 元数据与成果地质资料案卷级编目映射关系表
续表
表 2 DC 元数据与成果地质资料文件级正文、附表、附件、数据库和软件、多媒体和其他资源编目的映射关系表
表 3 DC 元数据与成果资料文件级审批资源编目的映射关系表
表 4 DC 元数据与成果资料文件级附图资源编目的映射关系表
2 实现方法
XML(Extensible Makeup Language)是一种结构化与半结构化数据的标志语言,由互联网联合组织(W3C)所开发和创建,其目的不仅在于满足不断增长的网络应用需求,更是为了确保在通过网络进行交互合作时,具有良好的可靠性和互操作性,XML 作为一种独立于系统的表达数据信息的标记语言,更适合于元数据在网络系统中进行数据交换。
XML Schema 是采用 XML 语法描述,提供描述和控制 XML 文档的一种规范。用于定义 XML 文档中使用的元素、属性和数据类型,简单地讲,就是利用一个通用模式,生成具有不同数据但相同结构的XML 数据文档。Schema 与 XML 文档的关系,相当于类和对象之间的关系。有了 XML Schema,XML 文档的写法就有了限制,利用 XML Schema 对成果地质资料核心元数据进行建模生成的 XML 元数据,可以便于资源在网络系统中进行数据管理,从而更好地实现传输。
具体实现过程中可以使用 altova 公司的 XML spy 工具完成成果地质资料核心元数据的建模,生成HTML 或者 Word 形式的 XML schema 文档。基于建模文档,开发人员可以依托相关 xml 技术,比如apache 公司的 XMLBeans[4],实现查询成果资料目录数据库中的对应数据,通过 Schema 来修饰生成需要的 XML 文档,整个过程皆可以用代码实现,无需多次录入数据。最终将生成的 XML 元数据文档以 XML混合数据库(hybird database)形式存储。经过对比研究,作者认为基于 XML schema 技术可很好地实现成果地质资料核心元数据表达。
3 实例
以下是基于 xml 来描述的一条地质资料案卷级目录元数据:
第八届全国地质档案资料学术研讨会文集
“内蒙古阿拉善地区矿产资源潜力评价综合研究”项目是中国地质调查局 1999 年 10 月下达的地质调查综合研究项目(任务书编号:0499201021;项目编号:K1.1.4.4;科研项目编号:DK9902033)。在前人工作基础上,该项目以板块构造、边缘成矿和成矿系统理论为指导,紧紧围绕本区矿产资源评价工作的部署,以野外地质调查为基础,从本区实际出发,重点开展了工作区已知矿点和重要物化探异常区的野外地质调查;开展了区域地球化学背景、层控型朱拉扎嘎式金矿、火山岩型铜金矿和与花岗岩有关的金矿床等的研究工作,进一步厘定了各类矿床的成矿地质条件和控矿因素,明确了找矿标志,归纳了区域成矿规律,筛选了物化遥异常,并在此基础上圈定了找矿有利的预测区,编制了阿拉善地区 1∶50万区域成矿预测图,提出了下一步工作部署建议。
第八届全国地质档案资料学术研讨会文集
第八届全国地质档案资料学术研讨会文集
4 成果地质资料数据***享技术探讨
基于网络的成果地质资料数据***享,主要存在两个问题:首先,成果地质资料分布比较分散,服务方式不尽相同;其次,用户是分布的,其背景、教育程度、熟练程度等相差很大。因此必须研究一种合适的分布式数据的***享体系来整合这些分散的数据资源,为互联网用户提供统一的数据***享服务[5]。
作者经过比较国内外常用的分布式***享平台体系,认为 OAI(open archives initiative)数据资源整合模式比较适合成果地质资料数据***享。OAI 对外提供了开放文档元数据采集协议(OAIMH)。它最主要的目标就是通过元数据采集模式来实现网络上发布信息的不同组织之间的互操作,为其提供一个与应用无关的元数据互操作框架。OAIMH 基于 HTTP 协议,返回的数据采用 XML 格式,所有的存储必须为自己的资源产生 Dublin Core 的元数据以供交换,由此来实现各个节点之间的网络互操作。数据生产者无需完全开放自己的本地资源,只需***享元数据,这样既不用改变本地存储数据的软件结构,又能轻松实现联合检索和数据***享。不失为一种经济的互操作模式,故将成果地质资料目录转换为 DC 元数据能在更大范围内与其他科学数据实现***享交换。由于篇幅限制,对***享平台如何实现不做进一步的论述。
5 结论
用 DC 标准来设计成果地质资料核心元数据完全可行,基于 XML schema 技术可以实现建模,最终生成 XML 元数据文档。最终在基于 OAI 协议的数据资源整合模式下构建分布式***享平台,交换生成的地质资料核心元数据,将能更好地实现成果地质资料的***享与服务,进而能最大限度地发挥地质资料信息的潜在价值,服务整个社会。
参 考 文 献
[1] 李效广等 . 机读目录在成果地质资料管理中的应用前瞻 . 中国地质学会第二届学术研讨会论文集,[C]. 2010
[2] 刘芳,朱沙 . 数字图书馆中基于 XML_RDF 的 DC 元数据描述体系 [J]. 大学图书情报学刊,2005
[3] 盛剑锋 . 电子期刊 MARC 与 DC 编目数据比较 . 图书馆论坛 [J],2008,(2):104 ~ 107
[4] 杨典华,杨志刚 . 基于 XML 和 DC 元数据标准研究教育资源的元数据及其数据传播 . 现代教育技术 [J],2006,(16):57 ~ 67
[5] 诸云强 . 地球系统科学数据***享关键技术研究 M. 北京:科学出版社, 2009:36 ~ 57