国外科研信息化基础设施发展到何种水平?

2019年2月20日09:19:38国外科研信息化基础设施发展到何种水平?已关闭评论 70 views

日前,中国科学院编写了《中国科学院信息化发展报告2011》,在其中介绍了国外科研信息化基础设施发展现状。具体内容如下:

从当前世界各国和地区的科研信息化基础设施建设来看,其重点主要集中于高速网络、分布式计算设施、高性能计算、科学数据管理等四大紧密相连的领域。

1.高速科研专用网络建设如火如荼

宽带网络尤其是科研专用网络,支撑着一切基于网络的科研信息化活动。当前世界各国都在竞相开展高端科研教育网络建设。目前,全球大规模学术网基本可分为三大主体:欧盟的GÉANT、北美的Internet2和亚太地区先进网络APAN。

(1)GÉANT

世界最大的多千兆教育科研专用计算机网络由欧盟委员会和欧洲各国科研教育网(NRENs)联合资助兴建的高带宽泛欧科研教育骨干网GÉANT 是欧盟e-Infrastructure战略的核心。它既是专门支持科研信息化的全球科研网络的核心,也是未来互联网各项核心技术研发的基础。GÉANT目前连接着全欧32个国家科研教育网(NRENs)和全球类似网络,可为40个欧洲国家约8,000家科研院所的4,000万科研教育用户提供无缝连接的服务,是世界最大、最先进与多样化的科研教育网络体系 。

国外科研信息化基础设施发展到何种水平?

图表 1. GÉANT网络全球连接示意图

(2)Internet2

Internet2已成为最前沿研发和实验的平台,可满足其成员对协作应用、分布式研究实验、基于网格的数据分析和社会联网等带宽密集型处理的需求 。2010年夏,美国政府拨款6250多万美元,资助Internet2和其他几家国家科研教育网络建造带宽100G的美国统一社区锚点网(U.S.UCAN),以连接美国的学校、图书馆、社区大学、保健中心和公共安全组织等社区机构,实现当前典型互联网服务尚未包括的先进应用 。2010年10月,NSF又为Internet2中间件计划提供了为期3年约265万美元的资助,旨在将Internet2开发的基本认证软件组合为一个工具包,以促进虚拟组织的协作 。

(3)亚太地区先进网络APAN

亚太地区先进网络APAN 联盟成立于1997年,旨在为亚太地区科研教育团体提供一个先进的网络环境并协调其发展,推进网络应用和服务。澳大利亚学术与研究网AARNet、日本学术信息网SINET3和我国的CERNET网络是亚太地区科研教育网的主要组成部分。

与上述网络相连构成全球科研教育庞大网络体系的主要国际科研教育网还包括:美国能源科学网络ESnet、荷兰国家教育科研网络SURFnet、法国国家科研教育网络RENATER、加拿大的CA*net4、跨欧亚信息网络TEIN3、东南欧的SEEREN,地中海地区的EUMEDCONNECT,拉丁美洲的ALICE,印度的ERNET,中亚与高加索地区的OCCASION,南非的TENET,连接我国和欧洲的ORIENT等。

2.科学数据及其应用管理备受瞩目

现代科学与工程中,几乎所有领域的数据量每年都在成倍增长,其分析应用也愈发复杂,不同形式的数据均需得到妥善的管理、存储、维护,并通过用户友好的信息化基础设施服务提供给所有的科学团体使用,科学数据资源及应用环境已纳入科研信息化环境的基础设施范畴 。

(1)美国的DataNet计划

美国政府历来对科学数据工作极为重视,NSF于2007年9月正式发布了科学数据可持续保存与共享网络伙伴计划(Sustainable Digital Data Preservation and Access Network Partners, DataNet)项目指南 ,规划创建面向科研信息化的科学数据保存与共享模式。在此项目支持下,NSF预计未来五年(2009年开始)投资1亿美元,建立一批全景示范的新型数据保存与共享组织架构,为长期的科学研究提供可靠的数据保存、访问、集成和分析能力,以及预测及不断适应技术本身及用户需求所带来的变化等。

DataNet项目资助成立的虚拟组织“数据管理委员会”(The Data Conservancy)主要负责研发可支持科学数据保存、应用和安全的数据收藏基础设施,其在灵活获取数据、开展与开放数据相关的活动和拒绝使用来源不明的数据方面都取得了一定成效 。

(2)英国DISC-UK数据共享项目

由英国多家机构联合开展的DISC-UK数据共享项目(2007.3-2009.3)的总体目标是在一个复杂和动态的信息环境中促进学术数据共享新模式、工作流程和工具的形成。其利用各方专业知识,推进数据存放服务,探索新途径,协助研究人员在互联网上分享数据。

2009年5月15日,DISC-UK数据共享项目最终报告发布 ,总结了近期英国科学数据共享研究的重要进展与特点并得出三个重要结论:①对研究人员而言,数据管理比数据共享更能成为使用知识库的动机,但还不足以产生文化变革;②数据馆员、数据管理人员和数据科学家可以帮助知识库管理人员和研究人员开展交流;③机构知识库可以提高在互联网上共享数据的影响力。

(3)澳大利亚科研数据共享基础设施(ARDC)

澳大利亚政府从2008年启动建设国家科学数据服务网络(Australian National Data Service,ANDS) ,旨在全面整合全国数据资源,实现数据长期保存和共享利用。2009年,澳大利亚高等教育投资基金(EIF)拨款4800万澳元,支持ANDS创建和发展“澳大利亚科研数据共享(Australian Research Data Commons,ARDC)”基础设施 ,旨在使澳大利亚科研数据作为一个整体,成为一项国家性的战略资源。其重点领域包括:数据采集基础设施、元数据存储基础设施、自动数据发布公共基础设施、ARDC核心基础设施和ARDC软件基础设施。

 3.高性能计算成为评估国家创新能力的关键

高性能计算设施对现代科学研究而言是一种极为重要且不可或缺的战略工具,世界各国都对超级计算能力建设和应用高度重视,纷纷提出国家级计划。超级计算的能力和应用水平已经成为评价国家创新能力和国家竞争力的关键因素之一。

(1)欧洲的PRACE计划与DEISA计划

2010年6月9日,耗资4亿欧元、有20个国家参与、联接多台超级计算机、每秒计算速度将达百万兆次的欧洲先进计算合作伙伴(Partnership for Advanced Computing in Europe ,PRACE)计划在西班牙巴塞罗那正式启动。从2011年到2015年,德国、法国、意大利和西班牙的超级计算机将逐步联接在一起,并计划至2019年将运算速度提升到每秒百亿亿次。目前欧洲计算速度最快的德国Jugene超级计算机将成为新合作平台的首台Tier-0系统供欧洲科研人员使用 ,而采用了平衡模块架构的第二台Tier-0系统“居里(Curie)”也于近日确定在法国部署 。

与PARCE计划紧密相连的欧洲超级计算应用分布式架构(Distributed European Infrastructure or Supercomputing Applications,DEISA)计划 致力于促进世界水平的泛欧计算科学研究,为部署合作型欧洲超级计算机的高性能计算生态系统铺平道路。DEISA是建立在欧洲各国现有国内服务之上的欧洲超级计算服务,可提供网络管理和支持、Global文件系统数据管理、DEISA运转、资源管理、应用及用户支持、关键运用的实施、安全应用等服务。

(2)美国能源部先进科学计算研究(ASCR)计划

ASCR计划由美国能源部科学办公室资助 ,主要任务是为能源安全、核安全、科学发现和创新、环境等科学领域的研究人员开发和部署计算与网络工具,使其能对复杂现象进行分析、建模和预测,对原本因危险性和成本过高而无法进行的实验进行验证。ASCR主导的跨学科项目包括:基于先进计算的科学发现(SciDAC)项目、理论与实验创新计算项目(INCITE)项目和多尺度数学行动计划(MMI)。

2010年初,INCITE项目宣布为69项涉及锂空气电池、纳米太阳能电池、核燃料循环、先进推进系统、DNA测序、纳米结构超导材料的微尺度现象的尖端研究分配约160亿CPU小时的超级计算时间,支持他们取得突破性进展 ,而能源、环境、气候变化和生物学是其中重点。

(3)日本下一代超级计算机战略领域

2009年7月22日,日本下一代超级计算机战略委员会确定了五大下一代超级计算机战略领域及其在未来五年内拟实现的目标和预期成果 。包括:①预测生命科学、医疗及制药基础领域;②新物质和新能源开发;③灾害现象及全球变化情况预测;④设计下一代新产品,对产品进行优化组合,模拟评价产品性能和寿命等;⑤物质与宇宙的起源与构造研究。

4.分布式计算基础设施开创全新科研合作模式

分布式计算基础设施,或者说网格,被认为是继传统Internet、Web之后的第三次浪潮。它逐渐改变了人们使用计算机及其相连设备的方式,为全球合作研究提供了新的途径。通过网格技术,人们可以将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,将分散在不同地理位置的电脑组织成一台“虚拟的超级计算机”,实现计算、存储、数据、信息、软件、知识和专家等资源的全面共享。

(1)欧洲网格基础设施项目(EGI)

2010年,欧盟启动了新的网格建设项目——欧洲网格基础设施(European Grid Infrastructure,EGI) ,试图在当前世界最大的多科学网格“欧洲科研信息化网格”(Enabling Grids for e-Science,EGEE)的基础上,建立一个基于国家网格计划(NGI)的协作型泛欧网格基础设施,以满足不同学科对计算资源的需求。

(2)美国的TeraGrid XD项目

TeraGrid项目 于2001年8月由美国国家科学基金会(NSF)投资4500万美元启动,旨在构建全球范围最广、功能最全面、支持开放式科学研究的分布式网格计算体系。TeraGrid项目于2010年结束,其后续项目XD项目将于2011年4月1日启动,并持续至2016年5月30日。XD项目 旨在建设一个能提供高端数字服务的网络基础设施,通过为科研教育人员提供可用的、超越一般程度的超级数字资源以及相关界面、建议和培训,使科学和工程研究、科研和教育的融合、科学与工程研究合作范围扩展等领域的工作取得重大进展。

(3)开放科学网格项目

美国开放科学网格(Open Science Grid,OSG)是由来自全美各所大学、国家实验室和计算中心的软件、服务和资源供应商共同组成的联盟,旨在满足所有层次的科学虚拟组织当前和未来的需求。OSG项目截至日期为2011年,其功能包括 :

①利用一套通用的中间件,将大学和研究团体的计算与存储资源集中放置到一个通用、共享的网格基础设施之上;

②使参与的研究团体能以低成本的方式访问更多的资源;

③OSG虚拟数据工具包可为参与的计算和存储节点提供相应的、经测试的支持软件包,并为终端科研用户提供客户端软件包;

④与科研团体通力合作,帮助他们评估自身网络基础设施需求并针对本地、国家和国际需求规划解决方案。

5.云计算日益成为科研信息化的一大支柱

云计算作为未来发展的重要趋势,已经引起科学界的高度重视。随着云计算的不断进步与完善,有许多科研机构开始积极尝试利用云计算从事科研工作,并且已诞生不少成功案例,有人将这类云计算称为“科学云”(Science Cloud)。

(1)云计算大幅降低了生命科学和医学的研究成本生命科学和医学是云计算应用的两大热点领域

云计算可以解决生命科学和医学研究成本过高的难题。例如,美国威斯康星医学院生物技术与生物工程中心开发出一套名为ViPDAC(虚拟蛋白质组学数据分析集群)的免费软件,与Amazon公司的云计算服务搭配使用,能够让全世界的科学家通过云计算分析蛋白质组学数据,并利用大量的计算资源提高数据分析速度,为那些目前没有大量计算资源使用权限的研究人员提供了更多选择,并极大降低了蛋白质研究成本。美国约翰霍普金斯大学彭博公共卫生学院开发的基于云计算的Myrna软件,可在大幅提高RNA序列数据分析速度的同时降低成本 。此外,IBM公司也计划与美国密苏里大学联合创建用于基因组学研究的云计算环境 。

在医学研究方面,哈佛医学院在美国Platform公司的帮助下建立了内部云计算平台,动态满足了各部门的计算需求,并最大限度地降低了成本。其下一步的计划是使用户能通过内部云使用到Amazon EC2等外部云计算平台的资源。欧盟BEinGRID项目为癌症放射疗法开发了一套云计算解决方案,能以低成本提供更强大的软硬件资源,方便医院更好更快地获取结果。这套云计算方案还可用于图像引导放射治疗、强子治疗、近距离放射治疗等。

(2)云计算有助于改善数据传输与科研模拟

美国伊利诺伊大学研制成功一套云计算系统,可以通过高性能网络将散布在各地数据中心的数据快速汇聚到一起,比同类系统的速度快6倍。美国华盛顿大学于2009年建立的面向海洋学和天文学研究的云计算网络平台可以处理容量巨大的数据集,进行海洋气候模拟和天文图片分析。而美国阿贡国家实验室完成一种新型动态分布式科学计算云资源集成系统,能帮助物理学家动态地获取云计算资源,以开展重离子仿真工作。云计算有助于实现长期模拟,从中发现变化趋势,并将相关信息展示在互联网上。

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
avatar