地质数据核心元数据标准初探

吴小平

(国家地质档案馆)

本文基于地质数据的特点和国内外相关元数据标准的研究,研究并定义了一组描述地质数据资源最常见属性的核心元素,实现了对地质数据资源基本信息的描述。为加强地质资料的有效描述、组织、公开、表达和管理,促进地质资料资源的利用、共享、交换和整合,提高地质资料管理现代化水平和地质资料服务能力。

地质数据核心元数据标准关键词研究

1简介

1.1背景

随着经济社会的发展,地质工作在长期的实践发展中积累了大量的地质资料,形成了大量不同资源类型、涵盖各种地质学科的专业数据集,涉及区域地质、矿产地质、水文-工程-环境地质、农业地质、海洋地质、基础地质、地球化学、地球物理、遥感、地学研究等领域。数据量大、数据类型丰富、系统异构、数据格式多样化是当前地质数据的重要特征。

随着应用的深入和社会需求的增加,越来越多的研究需要基础数据的支持。地质数据多学科、多标准、多类型、多尺度、海量的特点在一定程度上阻碍了其深度利用和享用。如何有效地描述、组织、展示、表达和管理这些数据,从而促进地质数据资源的利用、共享、交换和整合,提高数据共享水平,是提高地质数据管理现代化水平和地质数据社会服务能力的基础。

为了解决这一问题,前人进行了卓有成效的研究工作,提出了利用元数据的标准化来统一管理分散的数据资源,通过Web实现数据的享受和服务[1-9]。元数据具有描述、公开、组织、管理、控制、保存和互操作的功能[9-11]。元数据标准和技术是实现数据标准化、数据共享、数据交换和互操作的重要手段。利用元数据标准提高数据描述和表达的深度,实现数据资源的描述、发现、处理和评价,提高用户检索数据的数据管理和查询效率;通过元数据标准化,逐步解决数据资源之间的语义独立和异构问题,最大程度实现数据互操作,为数据资源的集成和交换奠定基础;通过建立相关元数据记录,建立维护、保存等数据资源管理相关信息,加强数据管理过程控制,对进一步管理和利用地质数据具有重要作用。

1.2现状

目前,在地质资料管理和服务方面,已经形成了一套地质资料目录标准和规范,如《地质资料档案详细描述规则》、《成果地质资料管理技术要求》、《成果地质资料目录数据库描述表和描述要求》以及相应的软件系统等,以规范地质资料成果的建设、管理和服务。目前,各级地质资料馆藏机构建立了地质资料目录数据库,初步实现了馆际目录间的基础数据信息交换,在地质资料的管理、共享和服务中发挥了重要作用。

地质资料目录数据库是对地质资料文件基本信息的描述和组织,是地质资料元数据系统的重要组成部分,为地质资料的可持续发展和地质资料丰富应用的进一步建设奠定了坚实的基础。

2相关元数据标准的基本信息

2.1 DC(都柏林核心)都柏林核心元素集

都柏林核心元数据格式由美国OCLC公司发起,由都柏林核心元数据倡议组织设计,由参与合作项目的机构维护和修改。它适用于网络资源的描述。目前最新版本是版本1.1.1999,7月2日发布实施。

作为网络时代一种新的信息资源通用描述工具,DC元数据正被越来越多不同专业领域、不同语言、不同文化背景的国家和地区所接受。DC元数据标准主要指DC元数据元素、元素定义和注释,以及由这些内容组成的标准化或规范化文本。

DC最初应用的目的是记录和挖掘网络资源。由于DC元素的简单易用,OCLC的大力推广,以及录制网络资源的巨大需求,DC很快就适用于任何媒体。简单的元素定义和设置可以很容易的记录下来,这也是DC被广泛使用的重要原因。但也带来了另一个问题,即记录对象的描述深度不够,无法进行高度特定的检索[12]。2010年,DC元数据中文版正式发布,信息与文献都柏林核心元数据元素集(GB/T 25100-2010)进一步规范了DC [13]的文化进程,语义描述和元素名称得到统一和规范。根据Dublin Core元数据元素集(版本V1.1),DC由15个元素组成,每个元素有10个根据ISO/IEC 1179定义的属性,即:

Name:元素的名称;

标识符:元素的唯一标识符;

版本:生成元素的元数据版本;

RegistrationAuthority:注册元素的机构;

语言:元素描述语言;

定义:对元素概念和内涵的解释;

Option:指示该元素是被限制使用还是可选的;

数据类型:元素值中表示的数据类型;

最大频率:一个元素的最大使用频率,即是否可以重用;

注释:注释应用于元素。

DC元素根据其描述内容的类别和范围可分为三组(表1): ①资源内容描述;②知识产权描述;③外部属性的实例化。

表1 DC元数据元素列表

2.2数字地理空间元数据内容标准

数字地理空间元数据的内容标准由美国联邦地理空间数据委员会编制和发布[4,9,11,14]。标准1992是7月份起草的,经过多次修改。1994年7月8日,FGDC正式确认该标准为美国国家地理空间数据元数据标准,并于1997年4月发布了其修订版(FGDC1994,FGDC 1997)。

FGDC数字地理元数据内容标准的目的是确定描述数字地理空间数据的术语及其定义集,包括数据元素、复合元素(一组数据元素)及其定义和域值,并描述数字地理空间数据集的元数据信息内容。

FGDC按照区段、复合元素和数据元素进行组织,包括7个主要子集和3个辅助子集(见表2)。* * *有460个元数据实体(包括复合元素)和元素。FGDC定义了子集、复合元素和元素三种性质。这三个属性是:必要,即必须提供的信息;在某些条件下是必要的,即如果正在建立的元数据包含子集、实体或元素所描述的特征,则必须提供的信息;可选,即信息是可选的,由用户决定是否将其包含在元数据文件中。FGDC元数据标准没有指定语法格式或编码规则,所以它只是一个像DC一样的内容标准。

表2 fgdc元素列表

2.3 ISO TC211元数据标准

ISO TC211元数据标准由国际标准化组织第三工作组研究,项目编号为15046-15。1996年2月9日采用了1.0的草案版本,几经修改后于10月20日发布了210 (ISO TC211,1997)的标准版本【TC211元数据内容项分为三种类型:必选类型(M),指必须给出的内容条件型(C)是指在一定条件下需要给什么(C代表有条件);Optional (O)指可选内容(O代表可选)。元数据内容是逐项逐行表示的;该标准给出了元数据生产和管理的规范。

在TC211元数据标准中,元数据的内容分为七大类,每一类又包括若干子类或具体的元数据项,主要包括元数据内容、标识信息内容、数据质量信息内容、空间数据表达信息内容、空间参考信息内容、特征和属性信息内容、数据发布信息内容、数据参考信息内容等。

3地质数据的核心元数据

3.1概念

“核心元数据规范”意在定义一组描述地质数据资源最常见属性的数据元素,实现对数据信息基本情况的描述。

3.2目的

地质数据核心元数据(GDCM)旨在通过建立一套用于描述各种地质数据集的元素,为地质数据资源提供一套通用的描述元素和规范,以便管理人员和用户在通用领域应用中描述具有相同特征或属性的数据集,支持地质数据资源的检索、集成、交换、服务和享用。

3.3范围

地质数据核心元数据是关于地质数据资源的基本描述信息,是由数据资源的异同决定的元数据集合。

3.4原则

3.4.1用户需求原则

核心元数据作为一组基础的、通用的地质数据描述数据,在设计和选择核心元素时必须充分考虑用户的需求,才能深刻揭示信息资源的内涵。在结构和格式的设计上,元素的添加和选择,语义规则的制定等。,应该尽可能从用户的角度增加系统与用户的交互渠道(比如使用开放的词库系统,增加提供用户反馈的元素等。)为用户提供多层次的检索系统[9]。

3.4.2简单适用原则

简单适用原则要求元数据方案简单易懂,便于计算机记录,有利于实现互操作;同时要兼顾适用性,选择最能表达需求的元数据集,以解决元素过少导致的不准确,提高检索的准确性,做到简单、恰当。

3.4.3互操作性和易于转换的原则

互操作性是实现不同数据格式和异构系统之间数据交换的重要原则。元数据方案的设计要充分考虑数据之间的互操作性,通过建立映射、数据交换机制、语义共享来实现互操作,从而实现不同系统、不同数据格式之间的数据交换。

3.4.4特殊性和普遍性原则

专用性和普遍性原则要求元数据方案的设计要统筹考虑各种资源的应用特点,协调资源的应用深度和广度。

3.4.5可扩展性和可持续性原则

可伸缩性指的是数据方案的寿命。随着数字资源的内容、应用和需求的不断增加,元数据方案必须能够适应资源应用和需求的变化,并添加一些特殊的应用来适应不断变化的需求。一些特定的应用可能需要更加详细和准确的描述,应该允许用户在不破坏指定的标准内容(如元素的语义定义)的情况下扩展一些元素、子元素或属性值[9]。可持续性原则是指充分考虑与现有标准和规范的衔接,充分利用现有标准的成果,确保元数据方案的可持续发展。

4地质数据核心元数据元素的定义

4.1基本定义

定义三个基本术语:元数据、核心元数据和数据集。元数据是关于数据的数据;核心元数据是指能够描述地质数据的一组通用描述元素和相应的规范;数据集是由相关数据对象组成的可识别的数据集合。将所描述的地质数据作为一个组,一个组可以看作一个数据集。数据集可以是物理上或逻辑上位于较大数据集内的较小数据集;反之,一个数据集可能由几个数据集组成,它是这些子数据集的父数据集。例如,根据地质数据文件的组织,数据集可以是文本、附件、图纸、明细表、附件和其他类的集合。本研究以数据集为元数据的描述对象,通过对地质资料电子文件的分类来组织数据集。

借鉴ISO/IEC 11179-3标准,本研究基本采用与Dublin Core一致的方法定义以下九个方面的要素:

1)中文名称:元素的中文名称;

2)英文名:元素的英文名;

3)标识符:元素的唯一标识符;

4)定义:元素概念和内涵的解释;

5)数据类型:元素值中的数据类型;

6) Constraint表示一个元素是必须使用的还是可选的(强制);

7)最大出现元素是否可以重复,可以重复的次数;

8)值域:元数据元素的取值范围;

9)备注:对要素的补充说明、对记录格式的建议及其他。

4.2核心要素的内容

本研究参考了DCMI都柏林核心元数据倡议组织(Dublin core metadata initiative)发布的都柏林核心元数据元素集(版本V1.1)和都柏林核心信息与文献元数据元素集(GB/t 25100-2010[13]),元素的名称、定义、注释、约束和类型的中文翻译参考了都柏林核心修饰符[17]、DCMI元数据术语[16]地质资料档案详细描述规则(DA/T 23-2000) [21],成果地质调查数据描述表及描述要求[22],国家图书馆中文元数据方案[15],中国科学院科学数据库核心元数据标准[20]。地质数据核心元数据(GDCM)标准的核心元素和定义见表3。

表3地质数据核心元数据标准(草案)的核心要素

5结论与思考

核心元数据作为描述地质数据的一部分,需要进一步研究,逐步规范和完善。由于地质数据涉及面广、格式多样、类型多样,因此有必要制定一系列元数据标准来系统描述数据资源,并在多个不同的元数据标准之间建立语义共享和映射,以提高数据描述的深度和层次,优化数据组织和结构,不断提高地质数据管理、服务和共享的水平。

参加考试,贡献力量

[1]国家地理信息协调委员会办公室。自然资源与地理空间信息的整合与共享研究[M].北京:科学出版社,2007。

[2]徐冠华。实施科学数据共享提升科技竞争力[J].中国基础科学,2003 (1): 5 ~ 9。

[3]孙叔。地球数据是地球科学创新的重要源泉——从地球科学谈科学数据的享受[J]。中国基础科学,2003 (1): 19 ~ 23。

周成虎李俊。地理空间数据元数据标准初探[J].地理科学进展,1998,17 (4): 55 ~ 63。

张莉,龚建亚。地理空间元数据管理的研究与实现[J].武汉测绘科技大学学报,2000,25(5):127 ~ 131。

申体言,程成奇。地理元数据技术系统的设计与实现[J].武汉测绘科技大学学报,1999,24 (4): 34 ~ 37。

乐,游松才,谢传杰。地学数据中元数据标准结构的分析与设计* * * [J].地理与地理信息科学,2005,21(1):16 ~ 18。

[8]刘伟等2010。数字图书馆的语义描述与服务升级[M].北京:国家图书馆出版社。

[9]龙啸等,中文元数据标准框架及其应用[J]数字图书馆论坛,2011,5: 29 ~ 35。

[10]/,数字图书馆标准与规范建设-基础元数据标准与规范,2005-12。

[11]冯祥云,龙啸,廖三三,等.国外通用元数据标准的比较研究[J].数字图书馆论坛,2011,4: 15 ~ 21。

[12]国外元数据标准比较研究报告,中国文献元数据标准研究项目组系列报告之一,北京大学图书馆(65438+2000年2月)。

[13]都柏林核心元数据元素集,GB/t 25100-2010(ISO 15836:2009,MOD),2010-09-02。

[14]薛明。美国联邦地理数据委员会标准参考模型[J].测绘标准化,第20卷,第62期.

[15]/CMS/搜索者/。中文元数据方案。国家图书馆,2002.03。

[16],中国科学院科学数据库核心元数据标准(1.1),2003-08。

[21]地质资料档案详细描述规则。中华人民共和国档案行业标准:DA/T 23—2000。

[22]地质调查资料描述表及描述要求。中国地质调查局发展研究中心,2004-11-11。