世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

2020年1月11日23:33:56世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例已关闭评论 21 views

王卷乐1,5, 王祎2, 卜坤3, 王明明1, 王艳杰1,4

1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101

2. 国家科技基础条件平台中心,北京 100862

3. 中国科学院东北地理与农业生态研究所,长春 130102

4. 中国矿业大学(北京) 地球科学与测绘工程学院,北京 100083

5. 江苏省地理信息资源开发与利用协同中心,南京 210023

摘要

科学数据中心是科学数据管理的重要载体,评估认证对于科学数据中心规范化的科学数据管理具有重要意义。荷兰数据认可印章(DSA)建立了可信赖数字仓储核心认证机制,为数据存储库提供核心级认证。国际科学联合会世界数据系统(WDS)与DSA联合推出CoreTrustSeal合作认证,并在全球开展国际科学数据中心认证。随着我国《科学数据管理办法》于2018年3月出台,我国科学数据中心也面临着提高专业化水平和国际化影响的紧迫需求。在此背景下,本文阐述分析了CoreTrustSeal认证要求的三大类条款和16项指南。介绍了成立于1988年的WDS可再生资源与环境数据中心(WDC-RRE)在实际认证工作中的做法。提出科学数据中心要加强顶层设计、重视数据编目、提高国际化水平、加强认证佐证材料准备、提高认证材料的可访问性等数据中心认证的体会和建议。WDC-RRE于2018年4月提交申请,于2019年2月正式通过CoreTrustSeal认证,成为亚洲地区地学领域第一个通过该国际认证的世界数据中心。

关键词: 科学数据中心 ; 科学数据管理 ; CoreTrustSeal认证 ; 世界数据系统 ; 可再生资源与环境数据中心 ; 科学数据 ; 数据系统 ; 数据共享

1 引言

科学数据是重要的科技基础条件和国家战略资源。随着国家对科学研究等投入的不断加大和国与国之间在科研条件等方面的竞争加剧,全球各国纷纷将数据开放管理纳入到国家发展战略[1]。科学数据中心是科学数据管理的重要载体。发达国家高度重视这些资源的持续积累和合理利用,并逐渐形成了许多有影响力的国际科学数据中心[2]。为了保证这些科学数据中心的规范性,国际上重视对科学数据中心的评估认证。评估认证不仅能提升科学数据中心的可信赖度[3],确保数据的长期可获得性和可用性,增加科学数据中心工作流程的透明度,而且使得科学数据中心本身也能依照行业标准评估改进工作流程和步骤。

数据认可印章(Data Seal of Approval ,DSA)是荷兰皇家科学院和荷兰科学研究组织于2005年共同建立的可信数据仓储认证机构[4]。DSA利用可信数据仓储的核心认证机制对科学数据存储库进行评估认证,通过认证证明数据存储库的管理能力和可信任性,以确保存储的科学数据能被发现、理解和重复使用。CoreTrustSeal认证机制是WDS和DSA于2017年合作推出的可信数字仓储核心认证机制,取代原有DSA认证和WDS定期成员认证,为任何感兴趣的科学数据中心提供基于DSA-WDS核心可信数据存储库需求目录和过程的核心级认证[5]。全球建立的可信数据仓储认证标准或机制包括DSA和CoreTrustSeal认证、美国联机计算机图书馆中心(OCLC)发布的《可信数字仓储审核与认证:指标体系与核查表》、ISO发布的数字档案馆认证国际标准《可信任数字馆藏的审计和认证》(ISO 16364)等。综合对比来看,三种认证标准/机制具有相似的体系结构,其中CoreTrustSeal认证的条款最详细,要求最为明晰,对数据中心的审核更全面多样。截止目前,全球已经完成CoreTrustSeal的国际数据中心有68个,绝大多数在欧美,亚洲仅有3个。

我国继2015年印发《促进大数据发展行动纲要》[6]之后,国务院办公厅于2018年3月印发《科学数据管理办法》[7]。这是我国首个在国家层面出台的科学数据管理办法,为我国科学数据工作确定了行动纲领。其中,在国家层面明确提出统筹推进国家科学数据中心建设和发展,并在主管部门层面要求规划和建设部门(地区)科学数据中心,推动科学数据开放共享。这些举措必将推动我国科学数据中心的快速、大规模发展。但如何保障这些科学数据中心的规范化和专业化建设水平,急需国际数据中心认证评估方面的经验借鉴。

国际科学联合会世界数据系统(World Data System, WDS)在全球具有数据中心建设的引领地位[8]。中国在WDS体系中拥有9个科学数据中心,其中大陆地区8个、台湾1个。2017年开始,中国的WDS数据中心首批参与了国际认证。本文结合依托于中国科学院地理科学与资源研究所的WDS可再生资源与环境数据中心的认证经历和认识,对CoreTrustSeal认证机制的条款及结构进行分析,详细阐述其针对数据存储库的认证指南和评估标准,以期为科学数据中心认证工作提供建议和启示。

2 CoreTrustSeal认证条款与评估流程

2.1 CoreTrustSeal认证条款与结构

CoreTrustSeal可信数字存储库核心认证条款旨在反映可信存储库的特征。所有条款都是强制性、具有相同权重且相互独立的[9]。认证条款共包含16项,分为组织架构、数字对象管理、技术三大类(见图1)。

图 1

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图 1   认证条款结构图

Fig. 1   Structure diagram of certification requirements

2.1.1 组织架构(Organizational Infrastructure)

组织架构共包含6项条款:使命/范围、许可/授权、访问连续性、保密/伦理、组织基础设施、专家指导。

(1)使命/范围:数据存储库必须将本领域数据保存和可持续获取作为明确使命。

(2)许可/授权:数据存储库制定并维护包含数据访问和使用的所有适用许可,并监督数据使用者的遵从性。

(3)访问连续性:数据存储库制定连续性计划,保障存档数据的长期可访问和可获取。

(4)保密/伦理:数据存储库尽可能确保科学数据的创建、管理、访问和使用符合相关法律法规和道德规范。

(5)组织架构:数据存储库有足够的资金和合格的工作人员,通过明确的制度管理,保障任务的有效执行。

(6)专家指导:数据存储库采用机制确保持续的专家指导和反馈(内部或外部)。

2.1.2 数字对象管理(Digital Object Management)

数字对象管理共包含8项条款:数据完整性和真实性、评价、记录存储程序、保存计划、数据质量、工作流、数据发现和识别、数据重用。

(7)数据完整性和真实性:数据存储库必须保障数据的完整性和真实性。

(8)评价:数据存储库根据定义的标准接收数据和元数据,以确保数据对用户是相关的和可理解的。

(9)记录存储程序:数据存储库在进行数据的归档存储时应采用文档化的流程和过程。

(10)保存计划:数据存储库采用计划和文档化的方式,确保数据的长期保存。

(11)数据质量:数据存储库具有处理技术数据和元数据质量的专业知识,确保有足够的信息供最终用户进行与质量有关的评估。

(12)工作流:数据归档基于明确定义的从数据摄入到传播的工作流。

(13)数据发现和识别:数据存储库确保用户发现数据并以适当的方式进行长久引用。

(14)数据重用:数据存储库允许重用数据,确保提供适当的元数据来支持对数据的理解和使用。

2.1.3 技术(Technology)

技术共包含2项条款:技术架构、安全。

(15)技术架构:数据存储库在支持良好的操作系统和其他核心基础设施软件上运行,并使用适合为指定社区提供服务的软硬件技术。

(16)安全:数据存储库的技术基础设施提供了对其数据、产品、服务和用户的保护。

2.2 CoreTrustSeal评估标准与流程

CoreTrustSeal采用5个级别(0-4)基于16项条款对数据存储库进行综合评估。0代表不适用;1代表尚未考虑;2代表已有理论性概念;3代表正在实施阶段;4代表已经完成实施。

认证过程中申请认证者首先对数据存储库进行自我评判并阐述,同时提供必要的材料作为证明。随后,CoreTrustSeal采取同行评审的方式,基于申请认证者的阐述说明和材料证据,对数据存储库进行评判。同行评审有两种结果:①未通过,申请认证者提供更详细的说明和更充足的材料,继续进行评审;②通过,获得CoreTrustSeal认证标识,并将CoreTrustSeal标识展示在存储库网站界面。数据存储库通过认证后,CoreTrustSeal会在官网公开其申请时提交的证明材料。数据存储库每三年进行重新评估。拥有管理良好的记录和业务流程的组织可期望在三年后提交一份只进行最小修改的申请,除非认证条款本身在间隔期内进行了更新。

3 WDC可再生资源与环境数据中心的认证实践

3.1 WDC可再生资源与环境数据中心实践总体情况概述

WDC可再生资源与环境数据中心(World Data Center for Renewable Resources and Environment,WDC-RRE)成立于1988年,最初属于ICSU-WDC系统[10]。2008年,在WDC向WDS转型后,WDC-RRE申请并被接受成为WDS的首批正式成员。WDC-RRE致力于成为中国资源科学领域长期数据存档和共享中心。WDC-RRE的首页见图2,主页为http://eng.wdc.cn。

图 2

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图 2   WDC-RRE网站首页

Fig. 2   Website homepage of WDC-RRE

WDC-RRE于2018年4月15日开始申报, 2019年2月14日正式通过CoreTrustSeal认证,成为亚洲地学领域通过CoreTrustSeal 认证的第一个世界数据中心。截至2019年7月,在世界范围内,共有63个数据中心通过了该认证,其中40个在欧洲,16个在美国,3个在澳大利亚,3个在中国,1个在南非。

3.2 WDC可再生资源与环境数据中心认证实践内容

WDC-RRE严格按照CoreTrustSeal要求的16个方面的内容完善数据中心的建设,使之符合可信数字存储库核心认证的要求。以下,按三大类的总体框架介绍WDC-RRE的认证实践情况。

3.2.1 组织架构

WDC-RRE制定了数据存储规范[11]与数据使用协议[12],明确规定数据提供者与使用者的责任和义务,避免产生许可方面的纠纷。国家政策、隶属机构、长期稳定资金来源、技术四个层面共同保障数据访问的连续性。WDC-RRE专业团队人员对提交的数据进行审核,确保数据的版权、个人隐私和合法权利得到有效保护,并且符合相关法律法规和道德规范。高质量的人员队伍(超过30人)和充足的资金支持(五年以上)保障WDC-RRE的长期稳定发展,设立的专家委员会(15位)和用户委员会(15-20位)为数据中心长久建设提供科学建议和反馈。

3.2.2 数字对象管理

数据存储库中的数字对象通常包括数据集、元数据和数字对象标识符。WDC-RRE制定了相应的规则和标准对数据中心的数字对象进行质量约束和保存管理。

WDC-RRE参考开放档案信息系统(Open Archival Information System)的技术模型制定了数据处理手册[13],规定从数据选择与评估至数据获取与分发的完整的技术步骤和工作流程,使之更符合行业标准。WDC-RRE管理与操作规范[14]中明确了数据更新协议,将数据分为周更、月更、季更、半年更、年更和多年更新6类,并且每年更新的数据量不少于已有数据的10%。WDC-RRE在中国科学院东北地理与农业生态研究所部署了数据备份系统,对所有提交到数据中心的数据同步进行异地备份。所有数据和元数据的操作都只在副本上进行,并采用人机结合定期检查的模式,保障数据的完整性和真实性。

数据中心要求用户提交符合WDC-RRE元数据标准[15]的元数据,同时采用团队人员评估、用户评估和专家评估三种方式相结合对数据进行检查评估,共同保障数据质量[16]。WDC-RRE对提交数据的格式做出要求,须是广泛用于现有环境的、使用标准字符编码的、开放的非专用格式文件。除此之外,专业人员定期检查数据格式,对已失效的数据格式进行迁移,保障数据的可重用性。WDC-RRE平台提供数据分类系统和一站式搜索两种在线元数据搜索和查询服务,并采用数据中心自定义科学数据识别规范[17]和数字对象标识(DOI)两种数据标识方式,其中自定义的科学数据标识遵循我国国家标准《科技资源标识》的要求。为促进WDC-RRE数据的开放获取,WDC-RRE已在多学科研究数据和知识库re3data.org(见图4)和世界数据系统WDS(见图5)上注册。

图 3

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图 3   工作流程图

Fig. 3   Workflow diagram

图 4

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图 4   WDC-RRE在re3data.org中的注册界面

Fig. 4   Registration interface of WDC-RRE in re3data.org

图 5

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图 5   WDC-RRE在WDS中的注册界面

Fig. 5   Registration interface of WDC-RRE in WDS

3.2.3 技术

WDC-RRE采用了适当的软硬件技术来支持数据中心的功能运行。网络基础设施:(a)独立的工作场所和设备,包括数据库服务器、WEB服务器、大数据存储设备等;(b)足量的服务器和网络功能,向公共信息网络提供至少10 M/bps的互联网带宽出口,可以满足至少100个用户同时查询,浏览和下载的需求。技术框架:基于开放性和自由性原则,在操作系统和数据存储中采用了开源软件系统和程序。在数据管理方面,遵循国际和本地中心制定的相关技术规范。目前,WDC-RRE网站托管在阿里云平台,以Debian服务器作为操作系统,PostgreSQL作为开源数据库存储。元数据管理系统根据pycsw的技术框架构建。标准:数据中心的空间数据操作符合OGC CSW国际标准,所有元数据符合WDC-RRE元数据标准,与Dublin Core Metadata和ISO19115中指定的标准兼容。

WDC-RRE从系统安全、网络活动监控、数据存储安全和数据备份四个方面保障数据中心的安全。网络系统安全文档[18]包含用于确保网络安全和物理安全的预防措施。对流经关键路径的网络数据流执行从第2层到第7层的深入分析,防火墙系统使用ASPF的应用状态检测技术,实时检测应用层的连接状态,并提供电子邮件警报,攻击日志,流量日志和网络管理监控等功能;采取多种措施确保物理安全,包括独立的机房安全管理,自然灾害和人为灾害的有效解决方案及保障正常设备运行的稳定物理环境。网络管理员定期进行软硬件系统检查,并填写网站操作日志文件。数据库由专人负责跟踪数据访问,及时发现非法入侵和数据窃取的情况并采取相应措施。WDC-RRE制定了数据安全条款[19]。数据不得包含中国相关法律法规禁止的任何内容,同时,WDC-RRE不得以数据中心的名义向非授权人员披露国家机密信息和其他非公开信息。

在以上充分的认证准备后,WDC-RRE于2019年2月通过CoreTrustSeal认证,成为亚洲首个通过该认证的地学领域的国际数据中心。认证通过界面如图6所示。

图6

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

图6   WDC-RRE通过CoreTrustSeal认证界面

Fig. 6   Interface of WDC-RRE got CoreTrustSeal certification

4 国际CoreTrustSeal认证的启示

结合WDC-RRE的认证实践,总结出以下几点启示建议:

(1)科学数据中心要重视顶层设计。科学数据中心在组织架构、数字对象管理、技术条件等三个方面要均衡考虑,不能只重视一方面而轻视一方面。组织架构如同是一个科学数据中心的软环境,是保证其可持续发展的根本保障。缺乏良好的组织架构保证,科学数据中心极易随着主要管理人员的变动而变动,造成不可持续发展和巨大的前期资金浪费。数字对象管理是科学数据中心资源建设的核心,如果没有全面的、质量可控的科学数据汇聚、存储、加工、服务,将失去科学数据中心应有的价值。技术条件则是科学数据中心业务运行的基础条件,要有开放兼容的技术能力,保证科学数据中心在技术上既具备自给自足的研发能力,又具有国际开放接口的拓展能力,同时要具有安全保障的技术能力。

(2)科学数据中心要加强科学数据永久编目、数据增值加工利用和运营模式三个重点环节。数据编目一方面是数据永久标识和保存的基础,另一方面也是数据检索发现和应用处理的关键引擎。数据增值加工能力是一个数据中心应用服务能力的根本保障,其建设内容包括数据标准化能力、数据集成能力、数据分析能力等。可持续的运营模式是一个数据中心长期发展必须面临的关键问题,例如国家(项目)持续资助模式、联盟会员发展模式、机构产业合作模式、市场化模式等。

(3)科学数据中心要提高国际化水平。以地学领域为例,我国在科学数据管理上总体上取得了重大进展,但是与国外发达国家相比,我国科学数据管理在国际化建设方面差距显著。本研究团队对我国地学领域开放共享网站进行过国际化调查中,发现78%的科学数据门户没有英文网站。已建的许多地学领域开放科学数据门户英文界面/网站多数处于建设初期阶段,平台网站建设质量也存在差异,在网站内容、更新频次还有很大提升空间。因此,加强我国科学数据中心国际化水平也是通过科学数据国际认证的普遍挑战。

(4)科学数据中心认证要有充分和细致的佐证材料。国际科学数据中心认证的16个条款内容在同行评议的过程中,许多专家并不是本领域的小同行专家,需要根据申请人提供的佐证材料予以专业水平确认。例如,在组织架构方面,要有相关可访问的上级或本中心科学数据管理政策、有可访问的数据中心组织管理页面、有一定的相关活动报道的证明等。在数字化对象管理方面,要有数据中心主要技术人员的列表网页、有数据管理的生命周期管理的实例或规范支撑、有数据中心相关数据目录和实体的页面等。在技术基础方面,要有自主技术的知识产权凭证、必要的与国际标准互操作能力证明、以及数据异地备份的机构协议等。

(5)科学数据中心认证的所有材料具有良好的可访问性。因为CoreTrustSeal评估是在线评估,所有的评估过程均是通过同行评价中的在线检查完成的,且通过评估后的认证材料也将在CoreTrustSeal网站公开,允许其他人员继续访问,因此,所有的评估材料中尽可能提供能够长久访问的网络链接。例如,本数据中心在所在机构官网中的链接地址,数据资源目录的有效链接,第三方评价或者报道的有效链接,本机构自述的各类材料或者辅助信息的在线链接等。在正式提交认证前要检查所有的链接的正确性,并做必要的维护更新。

5 结论

加强和提升我国科学数据中心的建设能力和国际化水平是我国提高科学数据管理能力的关键。在我国《科学数据管理办法》出台之后,我国在各个层面加强了科学数据中心的布局和建设。面临数据中心发展中的规范化管理问题,本文结合世界数据系统科学数据中心认证的经验与认识,剖析了CoreTrustSeal认证要求共包含的三大类条款和16项指南。针对组织架构、数字对象管理和技术三方面内容,以WDS可再生资源与环境数据中心的实际认证为案例,分析了数据中心认证的主要内容。基于以上分析和实践,提出科学数据中心要加强顶层设计、重视数据编目、提高国际化水平、加强认证佐证材料加强认证佐证材料准备、提高认证材料的可访问性等数据中心认证的体会和建议。

科学数据安全是我国科学数据中心参与国际科学数据共享的重要课题。国家《科学数据管理办法》第十条明确要求,科学数据中心的职责包括"保障科学数据安全,依法依规推动科学数据开放共享"。如何在满足CoreTrustSeal中有相关的数据安全条款要求的基础上,切实加强我国在开放环境中的科学数据安全,也是不同学科领域科学数据中心需要持续思考和探索的问题。

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
avatar