1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
2. 国家科技基础条件平台中心,北京 100862
3. 中国科学院东北地理与农业生态研究所,长春 130102
4. 中国矿业大学(北京) 地球科学与测绘工程学院,北京 100083
5. 江苏省地理信息资源开发与利用协同中心,南京 210023
摘要
科学数据中心是科学数据管理的重要载体,评估认证对于科学数据中心规范化的科学数据管理具有重要意义。荷兰数据认可印章(DSA)建立了可信赖数字仓储核心认证机制,为数据存储库提供核心级认证。国际科学联合会世界数据系统(WDS)与DSA联合推出CoreTrustSeal合作认证,并在全球开展国际科学数据中心认证。随着我国《科学数据管理办法》于2018年3月出台,我国科学数据中心也面临着提高专业化水平和国际化影响的紧迫需求。在此背景下,本文阐述分析了CoreTrustSeal认证要求的三大类条款和16项指南。介绍了成立于1988年的WDS可再生资源与环境数据中心(WDC-RRE)在实际认证工作中的做法。提出科学数据中心要加强顶层设计、重视数据编目、提高国际化水平、加强认证佐证材料准备、提高认证材料的可访问性等数据中心认证的体会和建议。WDC-RRE于2018年4月提交申请,于2019年2月正式通过CoreTrustSeal认证,成为亚洲地区地学领域第一个通过该国际认证的世界数据中心。
关键词: 科学数据中心 ; 科学数据管理 ; CoreTrustSeal认证 ; 世界数据系统 ; 可再生资源与环境数据中心 ; 科学数据 ; 数据系统 ; 数据共享
1 引言
数据认可印章(Data Seal of Approval ,DSA)是荷兰皇家科学院和荷兰科学研究组织于2005年共同建立的可信数据仓储认证机构[4]。DSA利用可信数据仓储的核心认证机制对科学数据存储库进行评估认证,通过认证证明数据存储库的管理能力和可信任性,以确保存储的科学数据能被发现、理解和重复使用。CoreTrustSeal认证机制是WDS和DSA于2017年合作推出的可信数字仓储核心认证机制,取代原有DSA认证和WDS定期成员认证,为任何感兴趣的科学数据中心提供基于DSA-WDS核心可信数据存储库需求目录和过程的核心级认证[5]。全球建立的可信数据仓储认证标准或机制包括DSA和CoreTrustSeal认证、美国联机计算机图书馆中心(OCLC)发布的《可信数字仓储审核与认证:指标体系与核查表》、ISO发布的数字档案馆认证国际标准《可信任数字馆藏的审计和认证》(ISO 16364)等。综合对比来看,三种认证标准/机制具有相似的体系结构,其中CoreTrustSeal认证的条款最详细,要求最为明晰,对数据中心的审核更全面多样。截止目前,全球已经完成CoreTrustSeal的国际数据中心有68个,绝大多数在欧美,亚洲仅有3个。
国际科学联合会世界数据系统(World Data System, WDS)在全球具有数据中心建设的引领地位[8]。中国在WDS体系中拥有9个科学数据中心,其中大陆地区8个、台湾1个。2017年开始,中国的WDS数据中心首批参与了国际认证。本文结合依托于中国科学院地理科学与资源研究所的WDS可再生资源与环境数据中心的认证经历和认识,对CoreTrustSeal认证机制的条款及结构进行分析,详细阐述其针对数据存储库的认证指南和评估标准,以期为科学数据中心认证工作提供建议和启示。
2 CoreTrustSeal认证条款与评估流程
2.1 CoreTrustSeal认证条款与结构
图 1
图 1 认证条款结构图
Fig. 1 Structure diagram of certification requirements
2.1.1 组织架构(Organizational Infrastructure)
组织架构共包含6项条款:使命/范围、许可/授权、访问连续性、保密/伦理、组织基础设施、专家指导。
(1)使命/范围:数据存储库必须将本领域数据保存和可持续获取作为明确使命。
(2)许可/授权:数据存储库制定并维护包含数据访问和使用的所有适用许可,并监督数据使用者的遵从性。
(3)访问连续性:数据存储库制定连续性计划,保障存档数据的长期可访问和可获取。
(4)保密/伦理:数据存储库尽可能确保科学数据的创建、管理、访问和使用符合相关法律法规和道德规范。
(5)组织架构:数据存储库有足够的资金和合格的工作人员,通过明确的制度管理,保障任务的有效执行。
(6)专家指导:数据存储库采用机制确保持续的专家指导和反馈(内部或外部)。
2.1.2 数字对象管理(Digital Object Management)
数字对象管理共包含8项条款:数据完整性和真实性、评价、记录存储程序、保存计划、数据质量、工作流、数据发现和识别、数据重用。
(7)数据完整性和真实性:数据存储库必须保障数据的完整性和真实性。
(8)评价:数据存储库根据定义的标准接收数据和元数据,以确保数据对用户是相关的和可理解的。
(9)记录存储程序:数据存储库在进行数据的归档存储时应采用文档化的流程和过程。
(10)保存计划:数据存储库采用计划和文档化的方式,确保数据的长期保存。
(11)数据质量:数据存储库具有处理技术数据和元数据质量的专业知识,确保有足够的信息供最终用户进行与质量有关的评估。
(12)工作流:数据归档基于明确定义的从数据摄入到传播的工作流。
(13)数据发现和识别:数据存储库确保用户发现数据并以适当的方式进行长久引用。
(14)数据重用:数据存储库允许重用数据,确保提供适当的元数据来支持对数据的理解和使用。
2.1.3 技术(Technology)
技术共包含2项条款:技术架构、安全。
(15)技术架构:数据存储库在支持良好的操作系统和其他核心基础设施软件上运行,并使用适合为指定社区提供服务的软硬件技术。
(16)安全:数据存储库的技术基础设施提供了对其数据、产品、服务和用户的保护。
2.2 CoreTrustSeal评估标准与流程
CoreTrustSeal采用5个级别(0-4)基于16项条款对数据存储库进行综合评估。0代表不适用;1代表尚未考虑;2代表已有理论性概念;3代表正在实施阶段;4代表已经完成实施。
认证过程中申请认证者首先对数据存储库进行自我评判并阐述,同时提供必要的材料作为证明。随后,CoreTrustSeal采取同行评审的方式,基于申请认证者的阐述说明和材料证据,对数据存储库进行评判。同行评审有两种结果:①未通过,申请认证者提供更详细的说明和更充足的材料,继续进行评审;②通过,获得CoreTrustSeal认证标识,并将CoreTrustSeal标识展示在存储库网站界面。数据存储库通过认证后,CoreTrustSeal会在官网公开其申请时提交的证明材料。数据存储库每三年进行重新评估。拥有管理良好的记录和业务流程的组织可期望在三年后提交一份只进行最小修改的申请,除非认证条款本身在间隔期内进行了更新。
3 WDC可再生资源与环境数据中心的认证实践
3.1 WDC可再生资源与环境数据中心实践总体情况概述
图 2
图 2 WDC-RRE网站首页
Fig. 2 Website homepage of WDC-RRE
WDC-RRE于2018年4月15日开始申报, 2019年2月14日正式通过CoreTrustSeal认证,成为亚洲地学领域通过CoreTrustSeal 认证的第一个世界数据中心。截至2019年7月,在世界范围内,共有63个数据中心通过了该认证,其中40个在欧洲,16个在美国,3个在澳大利亚,3个在中国,1个在南非。
3.2 WDC可再生资源与环境数据中心认证实践内容
WDC-RRE严格按照CoreTrustSeal要求的16个方面的内容完善数据中心的建设,使之符合可信数字存储库核心认证的要求。以下,按三大类的总体框架介绍WDC-RRE的认证实践情况。
3.2.1 组织架构
3.2.2 数字对象管理
数据存储库中的数字对象通常包括数据集、元数据和数字对象标识符。WDC-RRE制定了相应的规则和标准对数据中心的数字对象进行质量约束和保存管理。
数据中心要求用户提交符合WDC-RRE元数据标准[15]的元数据,同时采用团队人员评估、用户评估和专家评估三种方式相结合对数据进行检查评估,共同保障数据质量[16]。WDC-RRE对提交数据的格式做出要求,须是广泛用于现有环境的、使用标准字符编码的、开放的非专用格式文件。除此之外,专业人员定期检查数据格式,对已失效的数据格式进行迁移,保障数据的可重用性。WDC-RRE平台提供数据分类系统和一站式搜索两种在线元数据搜索和查询服务,并采用数据中心自定义科学数据识别规范[17]和数字对象标识(DOI)两种数据标识方式,其中自定义的科学数据标识遵循我国国家标准《科技资源标识》的要求。为促进WDC-RRE数据的开放获取,WDC-RRE已在多学科研究数据和知识库re3data.org(见图4)和世界数据系统WDS(见图5)上注册。
图 3
图 3 工作流程图
Fig. 3 Workflow diagram
图 4
图 4 WDC-RRE在re3data.org中的注册界面
Fig. 4 Registration interface of WDC-RRE in re3data.org
图 5
图 5 WDC-RRE在WDS中的注册界面
Fig. 5 Registration interface of WDC-RRE in WDS
3.2.3 技术
WDC-RRE采用了适当的软硬件技术来支持数据中心的功能运行。网络基础设施:(a)独立的工作场所和设备,包括数据库服务器、WEB服务器、大数据存储设备等;(b)足量的服务器和网络功能,向公共信息网络提供至少10 M/bps的互联网带宽出口,可以满足至少100个用户同时查询,浏览和下载的需求。技术框架:基于开放性和自由性原则,在操作系统和数据存储中采用了开源软件系统和程序。在数据管理方面,遵循国际和本地中心制定的相关技术规范。目前,WDC-RRE网站托管在阿里云平台,以Debian服务器作为操作系统,PostgreSQL作为开源数据库存储。元数据管理系统根据pycsw的技术框架构建。标准:数据中心的空间数据操作符合OGC CSW国际标准,所有元数据符合WDC-RRE元数据标准,与Dublin Core Metadata和ISO19115中指定的标准兼容。
WDC-RRE从系统安全、网络活动监控、数据存储安全和数据备份四个方面保障数据中心的安全。网络系统安全文档[18]包含用于确保网络安全和物理安全的预防措施。对流经关键路径的网络数据流执行从第2层到第7层的深入分析,防火墙系统使用ASPF的应用状态检测技术,实时检测应用层的连接状态,并提供电子邮件警报,攻击日志,流量日志和网络管理监控等功能;采取多种措施确保物理安全,包括独立的机房安全管理,自然灾害和人为灾害的有效解决方案及保障正常设备运行的稳定物理环境。网络管理员定期进行软硬件系统检查,并填写网站操作日志文件。数据库由专人负责跟踪数据访问,及时发现非法入侵和数据窃取的情况并采取相应措施。WDC-RRE制定了数据安全条款[19]。数据不得包含中国相关法律法规禁止的任何内容,同时,WDC-RRE不得以数据中心的名义向非授权人员披露国家机密信息和其他非公开信息。
在以上充分的认证准备后,WDC-RRE于2019年2月通过CoreTrustSeal认证,成为亚洲首个通过该认证的地学领域的国际数据中心。认证通过界面如图6所示。
图6
图6 WDC-RRE通过CoreTrustSeal认证界面
Fig. 6 Interface of WDC-RRE got CoreTrustSeal certification
4 国际CoreTrustSeal认证的启示
结合WDC-RRE的认证实践,总结出以下几点启示建议:
(1)科学数据中心要重视顶层设计。科学数据中心在组织架构、数字对象管理、技术条件等三个方面要均衡考虑,不能只重视一方面而轻视一方面。组织架构如同是一个科学数据中心的软环境,是保证其可持续发展的根本保障。缺乏良好的组织架构保证,科学数据中心极易随着主要管理人员的变动而变动,造成不可持续发展和巨大的前期资金浪费。数字对象管理是科学数据中心资源建设的核心,如果没有全面的、质量可控的科学数据汇聚、存储、加工、服务,将失去科学数据中心应有的价值。技术条件则是科学数据中心业务运行的基础条件,要有开放兼容的技术能力,保证科学数据中心在技术上既具备自给自足的研发能力,又具有国际开放接口的拓展能力,同时要具有安全保障的技术能力。
(2)科学数据中心要加强科学数据永久编目、数据增值加工利用和运营模式三个重点环节。数据编目一方面是数据永久标识和保存的基础,另一方面也是数据检索发现和应用处理的关键引擎。数据增值加工能力是一个数据中心应用服务能力的根本保障,其建设内容包括数据标准化能力、数据集成能力、数据分析能力等。可持续的运营模式是一个数据中心长期发展必须面临的关键问题,例如国家(项目)持续资助模式、联盟会员发展模式、机构产业合作模式、市场化模式等。
(3)科学数据中心要提高国际化水平。以地学领域为例,我国在科学数据管理上总体上取得了重大进展,但是与国外发达国家相比,我国科学数据管理在国际化建设方面差距显著。本研究团队对我国地学领域开放共享网站进行过国际化调查中,发现78%的科学数据门户没有英文网站。已建的许多地学领域开放科学数据门户英文界面/网站多数处于建设初期阶段,平台网站建设质量也存在差异,在网站内容、更新频次还有很大提升空间。因此,加强我国科学数据中心国际化水平也是通过科学数据国际认证的普遍挑战。
(4)科学数据中心认证要有充分和细致的佐证材料。国际科学数据中心认证的16个条款内容在同行评议的过程中,许多专家并不是本领域的小同行专家,需要根据申请人提供的佐证材料予以专业水平确认。例如,在组织架构方面,要有相关可访问的上级或本中心科学数据管理政策、有可访问的数据中心组织管理页面、有一定的相关活动报道的证明等。在数字化对象管理方面,要有数据中心主要技术人员的列表网页、有数据管理的生命周期管理的实例或规范支撑、有数据中心相关数据目录和实体的页面等。在技术基础方面,要有自主技术的知识产权凭证、必要的与国际标准互操作能力证明、以及数据异地备份的机构协议等。
(5)科学数据中心认证的所有材料具有良好的可访问性。因为CoreTrustSeal评估是在线评估,所有的评估过程均是通过同行评价中的在线检查完成的,且通过评估后的认证材料也将在CoreTrustSeal网站公开,允许其他人员继续访问,因此,所有的评估材料中尽可能提供能够长久访问的网络链接。例如,本数据中心在所在机构官网中的链接地址,数据资源目录的有效链接,第三方评价或者报道的有效链接,本机构自述的各类材料或者辅助信息的在线链接等。在正式提交认证前要检查所有的链接的正确性,并做必要的维护更新。
5 结论
加强和提升我国科学数据中心的建设能力和国际化水平是我国提高科学数据管理能力的关键。在我国《科学数据管理办法》出台之后,我国在各个层面加强了科学数据中心的布局和建设。面临数据中心发展中的规范化管理问题,本文结合世界数据系统科学数据中心认证的经验与认识,剖析了CoreTrustSeal认证要求共包含的三大类条款和16项指南。针对组织架构、数字对象管理和技术三方面内容,以WDS可再生资源与环境数据中心的实际认证为案例,分析了数据中心认证的主要内容。基于以上分析和实践,提出科学数据中心要加强顶层设计、重视数据编目、提高国际化水平、加强认证佐证材料加强认证佐证材料准备、提高认证材料的可访问性等数据中心认证的体会和建议。
科学数据安全是我国科学数据中心参与国际科学数据共享的重要课题。国家《科学数据管理办法》第十条明确要求,科学数据中心的职责包括"保障科学数据安全,依法依规推动科学数据开放共享"。如何在满足CoreTrustSeal中有相关的数据安全条款要求的基础上,切实加强我国在开放环境中的科学数据安全,也是不同学科领域科学数据中心需要持续思考和探索的问题。
