数据与计算平台是驱动当代科学研究发展的重要基础设施

2019年12月22日23:03:49数据与计算平台是驱动当代科学研究发展的重要基础设施已关闭评论 37 views

廖方宇1, 洪学海1,2, 汪洋1, 褚大伟3

1. 中国科学院计算机网络信息中心 北京 100190

2. 中国科学院计算技术研究所 北京100190

3. 中国科学院 北京 100864

摘要

【目的】为表明数据与计算平台在科学研究活动中的重要驱动作用,本文研究了数据、计算以及科学研究的发展与本质。【方法】本文简述了数据技术和计算技术的发展,通过拓扑材料计算、计算化学、引力波发现、黑洞成像和半监督学习图像识别等典型案例,表明了在各领域科研活动中,数据与计算平台极大地拓展了科学研究的深度和广度,为当代科学研究提供了新的手段与方法。【结果】本文认为摩尔定律的驱动、大数据爆炸式的增长以及人工智能的再次蓬勃发展,都和数据与计算技术的发展呈现密不可分的关系。【结论】以大数据、人工智能技术为代表的数据与计算平台将作为科学研究一种独立、不可或缺的投入要素,融入科学研究活动的全过程,数据与计算平台将成为世界各国驱动现代科学研究发展的重要基础设施。

关键词: 数据与计算平台 ; 数据技术 ; 计算技术 ; 人工智能

引言

理论上,人类社会活动及自然世界的一切现象都可以在网络空间中构建起真实映射的“数字孪生”体,这是当今信息科学技术追求的“人—机—物”三元融合的本质。而构建映射“数字孪生”体最关键的技术就是数据技术和计算技术。

数据是对事实或过程的定量或定性的记录。数据技术就是研究对数据进行采集、分类、录入、储存、分析、检验等一系列科学技术活动的统称,其目标就是将数据变成人类用于认识自然物理世界和人类社会的信息——知识与规律。当前热门的人工智能实质是数据与计算技术应用的一种形态,其主要任务是发现数据世界中蕴含的自然与人类社会规律与知识,辅助人类一系列的活动。数据技术的实现依赖于计算技术,并与计算技术紧密耦合。本质上计算技术是实现数据技术以及人工智能等的核心工具和载体。自从人类发明了冯·诺伊曼计算机,几十年来,计算技术随着摩尔定律的驱动高速发展,使得数据技术等领域研究与应用更趋活跃。因此数据技术、计算技术等为构建“人—机—物”三元融合的“数字孪生”体提供了最基础的技术平台,而人工智能或许是实现这种映射最有效的技术和方法。

在上千年科学研究活动的演进中,人、资本、工具(科学仪器)、方法(理论)已经成为科学研究必然的投入要素。过去几十年,计算机辅助科学家开展了大量的计算工作,成为科研工具中重要的一种类型。然而随着数据与计算技术的飞速发展,数据与计算技术不仅仅在科学研究中起到辅助与支撑的作用,而是可以依靠数据与计算技术自身的逻辑方法驱动甚至引领科学研究活动。在一定意义上说,没有数据与计算平台,当今的科学研究活动几乎无法开展、科学发现几乎难以实现。因此数据与计算平台将作为科学研究一种独立的、不可或缺的投入要素成为必然。人、资本、科学仪器、数据与计算平台、方法(理论)成为科研活动的五大基本投入要素,数据与计算平台不仅仅支撑,更将驱动着科学研究快速向前发展。

1 数据与计算技术的发展

从纯粹的技术角度看,数据与计算是解决数据的形式化表达和可计算等理论问题以及计算系统实现与优化的现实问题,包括解决计算系统设计的CAP问题(① CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可兼得。)。从图灵机到冯·诺伊曼计算机再到图灵测试,这些经典的科学成就的灵魂就是数据与计算技术的本源[1],也是面对当初军事上的密码破译任务的重大现实需求以及信息技术驱动“双轮驱动”的结果,贯穿始终的是数据和计算技术的实现问题,也是当今信息技术发展的本源。

1.1 数据技术的发展

信息技术的发展已经经历了以单机为主要特征的IT1.0时代、以互联网为主要特征的IT2.0时代,到现在及将来以万物互联为主要特征的IT3.0时代(见图1[2]。数据技术成为IT3.0时代信息技术研究的重点技术方向之一。

数据与计算平台是驱动当代科学研究发展的重要基础设施

图1   信息技术的发展

Fig.1   Development of IT

人类为获得对自然和社会的认知,一直不断的在收集数据、转化数据为知识,并不断传播数据和知识,努力理解自然和社会运动发展的规律。万物互联的IT3.0时代,随着传感网、物联网、泛在网络的不断向物理世界各个角落的延伸应用,以及数据采集的硬件和软件技术的不断进步,信息系统采集、记录和存储的数据也越来越丰富,不仅仅有文字、数字等形式的数据,还有了声音、图片、视频等各种形式的数据,而且也越来越即时。数据规模从最初的MB、GB到TB、PB量级(千倍率)增长。数据结构也不再仅仅是原始数值型数据、可关系型结构化表达的数据,非结构化的数据越来越多,比如在网络空间的各种网络社交信息数据,通过望远镜获得的大量天文学研究的图片数据、基因分析学中的各种各样的基因序列数据、物理学中通过大型对撞机、光源等大型物理装置产生的大量实验数据等各个领域的科学数据。这种数据类型复杂、数据量大、产生速度快和蕴含较大价值的特征构成了当今称作为“大数据”的几个典型特征。面对大数据,传统的数据管理与处理技术已经难以胜任,呼唤着适应大数据管理与处理的理论、技术和方法的产生。

数据学已经有一些方法和技术[3],例如:数据获取、数据存储与管理、数据安全、数据分析、可视化等;还需要有基础理论和新技术,例如:数据存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类、数据伪装与识别、数据实验、数据感知等等。数据学的理论和方法将改进现有的科学研究方法,形成新型的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如:行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学,等等。

与数据学连为一体的是数据技术。数据技术的本质是对数据的“加工”技术,包括对数据进行采集、存储、清洗、加工、分析、挖掘等各个过程。程学旗等[4]、杨正洪[5]对大数据技术生态进行系统性研究,目前面对大数据的全生命周期,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法,并形成了较为完善的大数据技术体系,覆盖数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层等(如图2)。

1.2 计算技术的发展

数据技术与计算技术因计算机系统而始终一体存在,但计算技术是实现数据技术的重要依托平台技术。计算技术的发展已经发生了显著的代际转换,从强调单计算系统算力(如高性能计算)模式到网络计算模式再到大数据计算模式。目前这些计算模式并存,并各自发挥其独特的作用。

关于计算理论,早在1703年之前就有了二进制和数理逻辑系统,1936年,艾伦·图灵、阿隆佐·邱奇和斯蒂芬·科尔·克莱尼给出了算法在计算理论中的形式化定义。此后,理论计算机科学的众多计算理论的研究成果为计算技术的实现奠定了理论基础,主要包括算法、数据结构、分布式计算、并行计算、机器学习、计算几何、信息论、密码学、量子计算、计算数论、符号计算、程序语义和形式化方法、自动机理论、编码理论、计算学习理论、数据库、信息获取、以及与理论计算机科学等相关的诸多方面[6]

数据与计算平台是驱动当代科学研究发展的重要基础设施

图2   大数据技术栈

Fig. 2   Technology stack of big data

表1   大数据计算模式和工具

Table 1  Patterns and tools of big data

大数据计算模式 关键技术 存储体系 计算模型 计算平台 代表产品
批处理计算 Pig ZooKeeper Hive HDFS Mahout yarn GFS HDFS NoSQL MapReduce Hadoop Azure InfoSphere MapReduce
查询分析计算 HBase Hive Stinger Impala, Shark, Presto Hadoop Cassandra Dremel
图计算 数据融汇、图分割 GFS HDFS NoSQL BSP Hadoop Google Hama Pregel
流计算 Tuple/Bolt/Topology HDFS GFS 流计算模型 Storm S4 Storm S4
交互式计算 Hash表、列存储结构 GFS HDFS NoSQL MapReduce +算法 Hadoop Google Dremel Drill
PowerDrill
迭代计算 Spark Twister 基于内存的RDD数据集模型 Spark Spark
内存计算 内存数据库、列存储格式、读写分离 集中式存储 大内存计算 Spark HANA Spark HANA

计算技术发展最为典型的代表是高性能计算领域。高性能计算机设计的主要目标就是为了实现大规模计算任务,包括大规模数值模拟计算和大规模数据处理计算。当前高性能计算机系统已经成为互联网和科学研究等方面的数据与计算的核心基础平台,也是世界各国竞相争夺的信息技术领域的制高点。在高性能计算机系统的研制方面,在技术领域目前主要研究的焦点集中在突破高性能计算机研制的能耗墙、存储墙、编程墙、通信墙和可靠性墙5大挑战性问题 [7(如图3)。

数据与计算平台是驱动当代科学研究发展的重要基础设施

图3   超级计算的能量效率改进潜力

Fig. 3   Energy efficiency improvement potential of supercomputing

当前,高性能计算系统的重要负载是大数据。面向不同的应用问题,学者与技术人员在研究与工程中提出了不同的大数据计算模式和关键技术,并根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立了各种高层抽象(abstraction)或模型(model)。大数据计算模式的出现有力推动了大数据技术和应用的发展,使其成为目前大数据处理最为成功、最广为接受使用的主流计算模式[8](如表1)。

2 数据与计算平台是科学研究活动的重要生产要素

2.1 数据与计算平台的内涵

数据与计算平台是指融合利用高速网络、海量数据、强大分析计算能力及其相关信息化软件促进和支撑科学研究发现的信息基础设施环境,它不仅仅包括为科学研究提供支撑的网络、超级计算机、存储等硬件设施,还包括在硬件设施上部署的系统中间件、基础软件以及与学科发展紧密结合的应用软件、科学数据资源等软环境。

2.2 数据与计算平台成为解决复杂科学问题的必然

数据收集、整理与计算、分析与发现始终是科学研究的核心过程[9]。随着数据与计算科学与技术的飞速发展,数据与计算不仅仅在科学研究中起到辅助与支撑的作用,而是依靠数据与计算技术自身的逻辑方法驱动甚至引领科学研究活动。

随着科学研究的深入,越来越多的复杂系统包含了成千上万个物理、化学过程,且相互之间不可完整地分离,相互交织着,很难再通过经典物理学的方法来得出解析解。因此许多科学研究问题转变为数值模拟计算问题,如计算物理、计算力学、计算化学、计算生物学等都可归结为数值计算问题。随着观测与传感技术的发展,各学科领域研究产生了海量的科学数据,亟需新的技术与方法将数据转化为知识。因此,数据与计算平台将作为一种新的不可或缺的科研投入要素,驱动着科学研究向前发展[10]

2013年诺贝尔化学奖授予了三位美国科学家,获奖理由是“为复杂化学系统创立了多尺度模型”,其计算模型能够将微观尺度上的基本认识转化为宏观尺度上的预测能力。对于化学家而言,多尺度计算化学模型的建立使计算机变得像试管一样重要。该奖的启示在于,从应用的角度而言,大规模的计算资源和大量的“黑箱”计算程序的出现使得越来越多的研究可以应用理论和计算的方法研究自然科学问题。早在1986年,叶笃正提出在大气科学领域,几乎大气中的各种重要现象都可以用电子计算机进行数值模拟,并用电子计算机进行预报,大气科学进入了试验阶段,摆脱定性时代,进入了定量时代[11]

奥巴马在2011年6月提出“材料基因组计划”(Materials Genome Initiative,MGI)[12]作为美国政府“先进制造伙伴计划”的重要组成部分,其目的是利用计算与数据新技术,将材料从发现到应用的速度至少提高一倍,成本至少降低一半,发展以先进材料为基础的高端制造业。同年12月,“材料科学系统工程”香山科学会议召开。“十二五”至“十三五”期间,在863计划、973计划和国家重点研发计划的支持下,高通量计算、高通量实验、材料数据库和大数据技术已成为材料科学研究领域中不可或缺的研究方法。在今年3月《自然》的一篇文章中[13],中国科学家首次通过高通量计算对现有无机材料结构数据库进行大规模地毯式筛查,共花费100万核CPU小时的计算资源,发现40000余种已合成无机晶体材料中有8000余种可能具备非平凡拓扑物态,其中不仅包括几乎所有此前已发现的拓扑材料,还包括大量新材料,为拓扑材料领域研究打开了无数新窗口,突破了原有针对不同材料需要进行具体且繁难的理论分析的普遍状况,使得自动化计算材料拓扑性质成为可能。

近10年来,随着科学研究的数据量激增,很多时候现有计算能力已无法满足数据对计算的巨大需求。2017年诺贝尔物理学奖授予了“首次探测到引力波”的三位美国科学家,在引力波的这一发现过程中,数据与计算平台扮演着无可替代的作用。激光干涉仪前四个月的观测数据量达500TB,总共消耗了17亿CPU核小时的计算资源对数据进行处理。在对数据搜索的过程中,如果采用完全相关方法进行最高精度搜索,当下全球的计算能力亦无法满足需求。在采用和改进一系列加速算法的基础上,依然经过长达数月的分析与计算,才发现了远在15亿光年外的一丝引力波的涟漪,从而证实了引力波的存在。

2019年4月,200多名科研人员通过8个分布于全球的事件视界望远镜观测点“捕获”了黑洞的视觉证据。此项研究历时10余年,加州理工学院使用Blue Waters超级计算机超过1000个CPU核对3.5PB的原始数据进行近900个黑洞合并的模拟,总共花费了2万小时的计算时间。

诸多世界级的科学研究和科学发现的事例表明,数据与计算平台已经成为当代科学研究重要的信息基础设施,并且将融汇贯穿于整个科学研究活动的全过程。近年来,几乎在任何一项的重大科学发现和重大科技计划中,数据与计算平台都在扮演着无可替代的角色。

2.3 人工智能是数据与计算潜能展现的典范

人工智能是当前信息技术与智能科学研究领域的最大热点。在2019年6月的世界智能计算机大会上,李国杰院士以《对智能超级计算机的几点认识》为题,指出“现在:智能与超算的历史性会合”。当前人工智能产生了积极的应用效果,如语音识别在安静环境下准确率超过98%,人脸识别准确率已高达99.7%,比人眼还准确。人工智能系统在一些特定任务方面已胜过人类,如国际象棋(1997年)、图像识别(2015年)、语音识别(2015年)、围棋(2016年)以及德州扑克(2017)等[14]。这些人工智能成功的典型范例内涵都展示了数据和计算技术在人工智能研究领域的关键价值。

比如在图像识别技术领域,斯坦福大学李飞飞团队在2017年的ICCV顶级会议上发表的论文[15],该研究重点在于:其一提出了一种新的多任务适应方法的半监督学习模型(如图4),这是智能计算的核心——模型;其二表征了用于域适应的大规模细粒度车辆数据集。在本项研究中,使用了极具挑战性的细粒度数据子集,包含来自商业网站和谷歌街景的约110万张图片,其中包含2657种汽车车型。论文在2657个子集(共71,030张图片)中选取了170个,展示了新方法对于性能的提升程度(基于属性的任务适应性损失函数在半监督适应条件下可将准确率从基准的4.1% 提升到19.1%)。这个典型的案例说明,在当代人工智能研究领域,模型是体现人工智能的核心算法,但实现“智能算法”更加需要数据和计算的支撑。

数据与计算平台是驱动当代科学研究发展的重要基础设施

图4   斯坦福大学提出的无监督和半监督适应域方法

Fig. 4   Unsupervised and semi-supervised adaptive region method proposed by Stanford University

人工智能的权威学者M.明斯基定义“人工智能的任务是研究还没有解决的计算机问题”[16],即人工智能就是计算技术的非平凡应用。人工智能应用问题,如图像识别、语音识别、计算机下棋、机器翻译等,多数是具有指数复杂性的科学问题,用常规的方法无法解决。所谓人工智能算法研究就是要找到在多项式时间内求解这些问题的方法,不断扩展计算机可求解问题的范围。所谓“问题求解”不是要求在最坏情况下找到最优解,也不是非要找到模仿人脑思考解决问题的方法,而是用计算机的“思维”方式在可容忍的时间内找到满意的解。因此现在讲人工智能也就是数据、计算与智能算法模型的结合问题。

应该说,近年来人工智能的复兴有深度学习算法的贡献,但主要是得益于数据资源的极大丰富和计算能力的飞速提高。但是,人工智能技术本身还没有本质性的突破[14],人工智能还处在“感知”阶段,距离“认知”还存在很大的距离。但可以说,在数据与计算技术飞速发展的今天,通过人类的创造性的应用,人工智能展现出的对各行各业、各领域和各学科发挥作用的可能性和效能是难以预测的。

3 结束语

随着当今数据爆炸性增长,人类社会进入“数据爆炸”的时代,数据极大拓展了科技创新的研究深度和广度,科学研究呈现出数据密集和数据驱动的重要特征。科学研究活动必然借助于先进的数据与计算平台,先进的数据与计算平台也将因应用需求驱动演进出更新的技术,驱动当代科学研究的螺旋式上升,先进的数据与计算平台成为了科技创新活动重要投入要素。中国科学院在中长期科技发展规划战略研究工作中,已将“数据与计算平台”作为专题研究方向开展战略研究,与此同时,世界各国也正在加大和强化国家层面的数据与计算平台的规划与建设[10]。数据与计算平台的发展将影响各个学科领域的科学研究进程,并将迅速变革传统的科研模式,毫无疑问地将驱动着现代科学研究的迅猛发展。

参考文献 

[1]The Chinese Room Argument [R/OL]. First published Fri Mar 19, 2004; substantive revision Wed Apr 9, 2014. https://plato.stanford.edu/entries/chinese-room/ .

李国杰 等. 中国至2050信息科学技术发展路线图[M]. 北京: 科学出版社, 2009.[本文引用: 1]

[3]朱扬勇 . 数据学[M]. 上海: 复旦大学出版社, 2009年.[本文引用: 1]

[4]程学旗 等.大数据技术进展与发展趋势 [J]. 科技导报, 2016,34(14):49-59.[本文引用: 1]

[5]杨正洪 . 大数据技术入门[M]. 北京: 清华大学出版社, 2016.[本文引用: 1]

[6]ACM SIGACT News [C].Volume 41 Issue 4, December 2010,ACM New York, NY, USA, ISSN:0163-5700.

[本文引用: 1]

[7]Zuo-ning CHEN, Jack DONGARRA, Zhi-wei XU .Post-exascale supercomputing: research opportunities abound [J]. Front.Inform.Technol.Electron.Eng, 2018,19(10):1203-1208. [本文引用: 1]

[8]Marcos D.Assunção, Rodrigo N. Calheiros, Silvia Bianchi ,et.Big Data computing and clouds:Trends and future directions[J]. Journal of Parallel and Distributed Computing,Volumes 79-80, 2015: 3-15.[本文引用: 1]

[9]张亚平, 谭铁牛 , 等.推进科研信息化,实施国家科研信息化重大工程 [R]. 中国科学院学部咨询报告.[本文引用: 1]

[10]中国科学院. 科技强国建设之路—中国与世界[M]. 北京: 科学出版社, 2018: 436-456.[本文引用: 2]

[11]叶笃正 .现代大气科学之进展[J]. 地球科学进展, 1986,( 2):8-10.[本文引用: 1]

[12]Materials Genome Initiative for Global Competitiveness [OL]. http://www.whitehouse.gov/sites/default/files/microsites/ostp/materials_genome_initiative-final.pdf :2001.URL     [本文引用: 1]

[13]Zhang Tiantian, Yi Jiang, Zhida Song, He Huang, Yuqing He, Zhong Fang, Hongming Weng, Chen Fang Catalogue of topological electronic materials [J]. Nature 566, no. 7745(2019):475. [本文引用: 1]

[14]李国杰 .“智能计算机”的历史、现在和未来:超算正与智能“历史性会合”[N/OL]. http://m.cas.cn/zjsd/201907/t20190704_4698415.html .URL     [本文引用: 2]

[15]Timnit Gebru, Judy Hoffman, Li Fei-Fei .Fine-grained Recognition in the Wild: A Multi-Task Domain Adaptation Approach [J]. arXiv:1709.02476v1[cs.CV] 7 Sep 2017.[本文引用: 1]

[16]Minsky M .Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind [M] // The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind. SIMON & SCHUSTER, 2007.[本文引用: 1]

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
avatar