2015回顾 > 论坛精选 > 大数据与人工智能——梅宏院士

大数据与人工智能——梅宏院士

大数据与人工智能——信息化3.0时的重要表征。什么是信息?信息是在物质和能源之后的第三大战略资源。什么是信息化?信息化是信息技术在所有领域的综合应用的这个过程,那么随着信息技术的发展以及应用的推广和深入,信息化在技术平台、管理资源和应用模式方面逐渐的演化,呈现出明显的阶段性特征。

梅宏——西湖论健

梅宏 (中国科学院院士、IEEE Fellow、863计划先进计算组组长)

张会长、马市长、各位领导、各位嘉宾:

非常高兴来到美丽的西子湖畔来参加这个论健。在中国喜欢看武侠都知道华山论剑,我们西湖论健用的是健康。我这个题目是一个命题题目,实际上我对医疗是个外行,虽然我以前在做863计划的时候,支持过很多信息技术,在医疗领域也知道一些,也知道信息技术能够辅助医疗,但是信息技术在医疗领域的应用真的是很难,因为医疗领域掌控了这个命题里所有的治疗医生,这个就有很多问题。所以我想要从技术层面来讲一讲,所以今天我跟大家报告的题目就是说《大数据与人工智能》,这叫信息化3.0时的重要表征。

当然为了应景我也做了一个小的部分,就是我所看到的医疗信息化的问题和表征。首先我要讲什么是信息化3.0?这个概念是我们在前两年在科技部领导之下,一个专家组内部在信息技术领域战略研究过程中间我们所划出的一个信息阶段,是专家组的一家之言,也请各位在座的批评。

什么叫做信息技术与信息化?就是我们信息在物质和能源之后的第三大战略资源。最早是在48年,归老教授首次把它与物质领域相提并论。信息技术以及信息化实际上广泛并深刻的改变了我们人类社会,并且这作用大家可以看到在互联网+,这个作用正在加强,而无处不在的信息运用甚至可能会重构我们社会。

什么是信息化?那就是信息技术在所有领域的综合应用的这个过程,那么随着信息技术的发展以及应用的推广和深入,信息化在技术平台、管理资源和应用模式方面逐渐的演化,呈现出明显的阶段性特征。就三个阶段来说,在互联网的应用开始的前一天,我们把它称之为1.1阶段。这个时候很重要的特征是以单机利用为特征的数字化阶段,那么从95年,90年代中期、中后期开始,互联网得到广泛的商用,这时候所有的信息化应用进入了以联网应用与特征的一个网络化阶段。那么经过20年的发展,我们看到信息技术的快速发展,以及信息化在社会各个方面所形成的深入影响,我们认为现在正在进入开启一个新的阶段,我们把它称之为3.0阶段。它的特征是以数据的深度挖掘和融合应用为特征的智慧化,就是我们从技术平台典型应用和应用模式上来看实用于三个阶段,确确实实有不同的特征或者是说有一个革命性的特征。但是就像早期,由于它的性能、价格、体积等等各方面的影响实际上并没有大范围应用。计算机的大范围的应用是以IBM PC机兼容机出现为标志的,大范围的信息化是从80年代开始。我们可以看到这个时候技术平台是什么?就是PC。当然还有局域网、单机的数据库,我们在座的可能年纪大一点的可能用过单机数据库,典型的应用是什么?就是文档表格处理和文字处理,部门级的信息管理和管工资,很多人领过一个信封里面装的是钱,后来就装条,就是打印机打印出来的一个条,到底花了多少钱。应用模式是以单机处理,是以数据库为中心的局域网,没有进行调整。我想是第一阶段的特征。

随着在90年代中期,美国当时素质很高,提出了信息高速公路建成计划,这个是信息进入2.0的重要阶段。这时候的技术平台是什么?从单机局域网开始延伸到广域网后来到互联网,软件功能细分,类型极大丰富,开元软件开始形成一支独特的力量和这个商务软件开始有一个分庭抗礼的局面。那么这个互联网的高速发展尤其带来了一个新的技术化的热潮,比如说分离系统要互通,独占的数据要共享,独立的业务之间要协同,这又是一个20年的信息化发展的主要特征,这是他们的技术平台。典型应用随着信息技术的发展,基础设施能力的提升,能够建成了信息化建成它加深电子政务两类应用。比如说我们中国政府所做的——两网一站四库十二金。这大概是在2000年以后,政府推出来的。一站就是政府的门户网站,两网是内网外网,四库是人口、法人、空间地理和自然资源、宏观经济;还有十二金,大家耳熟能详的金关、金税,各种各样的金,这个时候面向政府的权职领域,按照统一规划、统一标准、统一管理、统一协调的原则,就建立跨地区的联网互通、信息共享、业务协同的来支撑政府的合理运作,这是电子政务。

梅宏——西湖论健

那么企业方面有典型的ERP,ERP针对物资管理和物流、人力、人流、财流信息集成一体化的企业管理软件,应用范围从早期的制造业扩展到了其他的所有的行业,而且这样的ERP开始支持跨地区、跨部门,甚至跨公司的信息整合,也在打破企业的边界,实现了整个价值链的信息的融合和协作。应用模式就是打破了部门和组织间的固有边界,强调信息共享和系统协同的一个网络化应用。随着互联网的发展、延伸,移动互联网、系统组织人物之间的转化,这就是2.0。

那么随着大数据的产生,当我们说大数据的源头,为什么会出现大数据的现象?也是由于这个技术的不断地廉价化,互联网的快速发展,信息化建设长期的积累形成了巨大的数据,而且这个数据资源正在快速的增长。另外一个方面,我们有很多大数据成功应用案例,也激发了基于数据基于只是指导实践的这么一个巨大的需求,这个正在进行以数据的深度挖掘和融合应用特征的智慧化,我们把它称之为3.0。为什么会大?我的理解是它是信息技术的不断廉价化以及互联网及其延伸应用所带来的无处不在的信息技术运用和产生的一个值。这有几个驱动力:一个是摩尔定理所驱动的知识捆绑,第二个技术所驱动的万物数字化,第三个宽带移动和互联网所驱动人机物的广泛连接,第四个云计算模式所驱动的数据的大规模的汇集和集中。这就是增长

大家可以看到IBC的一个统计,从03年数据是500万P到12年全球数据是27亿P。这是大家经常讲的大数据的几个特征,大数据调整之后是什么呢?我想这里面有一个特征和过去的信息化不一样,过去我们所需要的数据是我们首先是设想好的,我们要什么我们就去采集什么,现在很多数据不是你采集的,不是你主动获取的,而是源于系统的自然产生。我们看到海量的数据量很大,按照几个不同的统计大概在2020年前,人类的数据两年翻一倍,在人类发展历史上90%的数据也是过去两年多产生的,也是多样性的,从文本数据到视频、图片等各种各样的问题。时效性需要快速的处理能力,如果说我们做了一个运算,如果说用世界时候上当前最快的三个计算机,你要把一个P的数据都读取出来,需要6天,如果用4000台计算机对一个P的数据做简单的排序是需要6个小时,当然这里面还有所谓真实性和价值,讲的是一件事情,讲的是价值的稀疏性。

大数据对我们现在这个时代拥有重大的意义和价值,一方面它提供了我们人类认识复杂系统一种新思维和新手段,理论上我们能够把大千世界全部数字化,我们就构建了一个虚拟的世界。我们就做到了用大数据去逼近我们的现实世界,也就产生了我们科学的历史上的事。第四范畴研究科学院研究大数据的初衷理解和逼近复杂性强调的几个思维,把大数据的传统思维差别从随机到全体,精确求解到近似求解,从追求因果到观点。

第二大数据也成为促进经济转型增长新的引擎。这个估计也是国际机构的问题,大数据这个产业的形成对整个GDP的拉动,大约是在20%到40%,这个国家也很重视,我们国家也认识到它在促进产业转型升级,激发商业模式的创新,改善民生方面具有很重要的作用。

我记得20年前,我们在谈到信息化的时候,我们经常会讲一句话IT产业跟领导说,IT产业是什么?它不仅是一个独立存在的行业,同时它也广泛的渗透到别的行业里面,成为别的行业的催化剂和倍增器。那时候IT只是一个工具的地位。而现在它现在不仅仅是一个催化剂和倍增器的角色,它甚至会成为行业的颠覆。

梅宏——西湖论健

第三个,数据也正在成为国家综合能力和保障国家安全的一种新的利器,怎么从繁杂的元数据里面得到国家所需要的治理能力,把国家的安全防护。大家知道前两年谈的比较多的是以斯洛顿为形成的美国的应急化,从我的观念来看它就是一个非常成功的大数据,把各个方面的信息融合到一起来完成,他们所需要的情况。所以我们说信息化3.0时代,这个智慧化的时代,整体的大数据产业生态链也正在出现端倪,从基础设施、分析方法和应用云贯穿了整个数据的从获取到最后应用的整个生命周期。

那么它的技术平台是什么?我们认为技术平台就是以云计算为数据存储融合和分析,提供了一个高可伸缩的一个云管理平台,这个是未来的大数据技术平台。那么云计算就是为数据的存储和融合分析提供的平台里面,这个平台里面正在走向软件平台,我们需要它有足够的灵活化,实现硬件资源的具体化,管理功能的可编程,对网络化规模化的各种资源进行高效运用的标准化,典型应用应该是看到全球的大数据应用还属于发展的初期,中国大数据应用也才刚刚初步,我们主要看到互联网行业是目前大数据应用的领跑者,而其他行业虽然说我们大数据在别的行业刚刚拓展,应该说还不是那么典型处于一个发展典型特征,处于盲人摸象的一个初级阶段,但是应该看到它的巨大潜力已经被广泛认知,正在引发新一轮的信息化热潮,也将成为3.0时的主要建成。

它应用模式是什么?由于技术研究我就不想太深入的展开,就是我们理解的未来大数据的利用平台是一个云感知的新一代的霎时应用,加上云计算和光计算的融合,数据的集中存储融合分析在云端,新应用和依存应用也在大众社会产生理论模式来开发和存够,通过云感知和端融合来提供更为灵活而强大的按需组织,按需存合,按需汲取。

第二个方面由于是数据的领域不一样,不同的领域特定的领域需求可能会需要完成深度的定制,就像这几年互联网公司为自己构造信息系统一样,我们称之为DIY模式,不管是垂直整合各方面化验的东西,就是面向领域进行开发和运行的一体化工程。

第二方面我们想讲讲大数据的发展、回顾与思考。

前面我提到大数据处于一个初级发展阶段,首先我们来看大数据展现了的一个诱人的前景,巨大的前景被广泛认知和期待也引发了新一轮的信息化建设热潮,也呈现了很多数据应用成功案例,但是还需要公认的,大家都认可的典型的大数据的应用。就定义而言,按照维基百科的定义是,大数据是指在无法可承受的时间范围内用常规软件工具进行捕捉管理和处理的数据的集合。就这个定义而言,我们现在的大数据的应用案例,很多都难被称为这种典型或者是成功的案例,大多数是传统方法在量上的拓展,也有不少属于的是新瓶装旧酒的过分的炒作。技术支撑也是不一样的,也是不够的,现有计算机所体系面临着数据带来的全面挑战从结构,从系统软件,从它的存储管理和分析应用利用开发包括系统的能耗等等,都形成了一系列的挑战,当然我们也看到了很多数据应用成功的故事。商业智能、电子商务中的智能推荐,金融中的反欺诈都有很多的成功案例。智能交通,Google的自动驾驶,Waze的社区化交通导航,还有中外语言处理Google百度完整的翻译系统,自动问答系统,反正IBM中很有名的一个。从这些案例中间可以看到数据驱动的智能时代正在来临,这个驱动就是我们早期的人工智能是一脉相承的计划。

在早期,什么是人工智能?五六十年代的人工智能是什么?曾经也一个定义所谓的人工智能就是高层的programing,高层次的编程而已。那个时候我们通过把我们人所认识到东西变化性把我们看到的想到的预测用编码写到这个程序中间,这个编译以后它根据不同的情况来实现,后来长期的发展是基于规则进行发展,加上事实、规则和逻辑推理形成了基于规则的治理,那么这个典型的成果就是专家系统。而当前的趋势正在基于进入一个数字驱动,以继续学习,深度学习为代表,我们要从数据中间通过方法去发现规律,去挖掘知识。我以为这个东西大体有三个层次,因为这重要的是要体现在软件的支撑上。

第一个层次是软件加上知识库,这个知识库人可以去修改,最好是不要去改变软件,所以我们的中科院数据所的陆钱提出了一个知件概念。他说知件就是知识库的一个载体,就是软件加支件。软件如果不变,你就是知识库,知识之库你人可以变。

到第二个层次会是什么呢?软件系统存在能不能形成一个自演化的知识系统,在它部门中间不断的为他的知识库进行演化进行提升。

那么第三个层次是什么?就是连软件也可以自演化,自优化的软件加上自演化的知识库,这个事情在知识库的演化基于数据的智能做了很多,还有我们以前做了一个小的例子,我们在想大数据时代能不能够对软件的自动演化,自动生成有一些新的东西,我们有大量的软件工程,软件数据的存在,能否实现软件驱动,数据驱动和软件自动化呢?我们做了一个程序,自动化的生成的例子,因为现在大量的工作,基本上做的都是其他自然语言处理,我们是一个小的例子,通过深度学习,以网络学习了有大量的问题,问题的描述,还有很多代码,很多程序代码,生成了什么,我们给一个问题的描述,然后自动生成这个程序,这个右边就是我们生成的程序,这是一个很初步的一个例子。这个问题描述是什么呢?找到一串数字里面的最大和第二大,大家可以看,完全机器生成的只有四个错,把这个四个错误改过来,这个程序就可以正确的运行了,就可以找到任何一个字串里面最大和第二大的两个数据。然后这个软件自动化的路还很远,那么从大数据的应用也谈了很多年了,最近我们也开始对它进行分类,也分成了几类,也是三个层次,一个是描述性的,从过去发生了什么,现在正在发生了什么,从历史数据中间总结,抽取可理解的知识和洞见,分析已经发生了什么和时代发展的历程,比如大家经常讲的多了但是也有人说这个是一个假的故事。所有人都经常在讲啤酒和料的故事,这是一个典型的描述性的应用,第二个还是关注未来可能发生什么,就是一个预测性的东西,大家都知道,奥斯卡飞行,他是一个很好的成功的案例,包括流感的预测。第三个层次就是正在兴起的,真正形成大数据多元数据融合到一起进行分析的,叫做决策性。如果我现在这么做将它生成,进一步能指导该怎么做吗?那这两个基层基础之上,就分析了不同了决策和导致的后果并对这种决策进行选择和优化。把这种所谓的决策性分析列入到未来5—10年的技术创新。这是应用的三个层次。

在这种层次里面可能有一个很典型的例子就是说无人驾驶,无人驾驶的时候它就需要把各种的数据融合起来,比如说一个例子,这个过程当中就可以看到这个路口穿行过程中如果看到小球通过,可能就启动预测到后边会不会有一个小孩跟着,他在追着球跑,这个时候就要作出相应的判断,那么它来一个数据,除了对环境感应的数据,地图的数据还有其他的。所以这样的大数据的应用应该说现在还不是那么有,我相信未来应该会越来越有。从我们来看大数据发展到现在,我们说很多数据应用的成功案例都有了,从我个人的理解那我觉得还是有很多的东西值得在这个热潮中间需要反思,一个是大数据的概念持续升温,毫无疑问已经处于过热的状态,大数据不可能是解决一切问题灵丹,有时候很多问题也不需要全用,杀鸡有时候也不需要用牛刀,更不应该成为各行各业的马甲,换个马甲就来了,这个是新瓶装旧瓶。

第二真正的大数据应用应该取决于数据挖掘的深度和多元的跨界的数据融合的广度而不仅仅是数据的含量,我们可以看到现在很多的应用只不过是过去的数据量的增加而已。

第三,大未必一定能够胜过小,如果这个小里面承载的规律能够用数据模型来描述,这种模型驱动的规律性的存在,我相信更符合我们人类探求知识的本性。

第四,无论从深度还是广度来看,实际上我们很难有所谓的真正的全体信息。你把大千世界的信息数据化,实际上它是有一个不同阶段有不同的层次,很难做到力度的选择。所以就现实世界的复杂性而言,我们的数据化实际上也都是抽样的数据。

第五,关联关系强调了很多。有些人认为关联就可以代替一切,关联固然重要,但是因果关系我认为是更为重要,追求因果同样也是人类求知欲望的体现。特别是一些关键的领域,比如说我们的医疗,你不搞清楚原因,就是把关联拿来治病,行么?可能还是要把因果搞清楚,可能更有利于对病的了解,对整体的了解。大数据的普遍应用也会对社会带来重要的影响,可能就是带来数据的所有权,隐私保护信息安全等一系列新的问题,可当前我们在相应的道德法律建设以及技术方面都处于滞后状态。

最后一点,大数据实际上在中国范围内正在引发新一轮的信息化的建设过程,实际上在这种情况下面,我们更需要谨慎规划、示范和引导、积极谋划,审慎推进,避免一哄而上造成超前投资和重复投资,这是我查到过去IBC一个数字,2011年到2013年中国规划了255个数据中心,投入使用173个,总建占地面积是700多万平方米,总的计划面积是400万平方米,其中超大型比如说规模占一万个标准机架,其中功率是2.5千瓦的一个标准机架来计算,大型的规模3000—10000个机架,中小型的有190多,255个中型攻坚设计的服务器规模是728万台,实际投产也就57万,占设计规模的7.8,超大型中型数据库的投产率分别是由1.8,21.5和10%,所以越超大就越少,实际投产这57万里面大概也就2235,而规划投产是28500台,那么这个里面这个涉及到我们26个省、市、自治区,大家可以看到数据中心的建设热潮在全国涌动。

最后就是关于医疗系统,医疗大家都看到在我们国家,一个是供给的倒三角和需求的正三角,城市拥有70%的医疗资源,而广大农村只有30%,区域来讲北京的床位数千人床位数6.3,而贵州只有1.5,这个就涉及到很多。在我们整个医疗里面,这个就可以看出我们的任务是非常的艰巨,我们的信息化毫无疑问是出尽我们医疗现代化的一种非常有效的途径,它会透过这种信息这种新的药具导致新的模式从而新的生产力的发展,使得我们能够更好的用资源掌控者及其盘和资源为健康自我管理提供持续的好看病,看好病的服务,那么解放生产力。

这个看到是美国所描述的2024年学习型健康系统,它提出要以人为本、数据完整、知情权、节约成本、新的制度好用、多元数据的融合协同医疗信息等,涉及到很多方面,有具体的路线。毫无疑问在这种情况下,对我们国家是挑战还是很大的。大数据在医疗里面有广阔的用武之地,但医疗大数据也是我们医疗信息化的最重要的基石,这里面的数据有很多问题,个人的家庭数据呈现小碎片化而产生时间上的问题,医院临床数据大繁成片,而且掌握在医生手里还不能够随便用,个人的医馆数据涉及到私、涉及到利、保密的问题,那么这个就是数据的采集、共享和使用都有一系列的技术问题了。我看到健培做的胶片,胶片的数字打印的这样一个问题,这个是数据产权的一个方面,怎么样去共享和使用就有一系列的结果。数据的安全和隐私的保护,面向共享不超过的技术的标准规范,这个是技术方面的挑战,还有很多非技术的因素,政策法规,有数据的使用权和所有权的问题。党过去在支持医院的时候也有一部分,所有的信息技术只供医生参考。那医生采不采纳,特别是主治医生采不采纳这是很关键的因素,安全和保护也需要相关的政策法规,还有其他的市场因素,是需求导向还是技术导向,这个也有很多,真的有很多的问题。我做这方面的研究也不是很深,只有从我在一个技术的角度从外界所能看到的和接触到所认识到的一个挑战,不一定是准确的。

好,谢谢大家。