IBM推通用数据平台 拟整合不兼容系统的独立数据

书宇2016-06-08行业资讯1

2016060716570043eeb_550.jpg

据国外媒体报道,IBM今日宣布发布名为“数据科学实验”( Data Science Experience)的通用数据平台。其寄希望于通过该平台整合各个不兼容系统中独立存储的数据,从而对这些数据进行深入分析。

数据科学家,有人也称之为硅谷的统计学家,其潜力毋庸置疑。但目前对其作用不乏出现了一些失望。这个问题并不是关于大数据本身,而是相关技术的实用性。简单的说,我们最先设计的系统能够执行特定的任务,进行特定的数据分析,随后发现我们想让它做的更多,作用更大。当需求明确起来时,会发现最大的问题是系统的兼容性。

而现在IBM发布的通用平台就是用于解决不同系统的兼容性问题,通过整合不同系统、各种格式的数据,有助于公司进行管理,或参与市场竞争。

通用平台的重要性

欧洲核研究组织CERN一直以来是世界上最大的科研机构之一。它曾经发现了反物质的分离,近期正在进行希格斯玻色子的相关研究。这里的工作与六个诺贝尔奖的诞生有关。

然而,当蒂姆·伯纳斯·李(Tim Berners-Lee)于1980年在那里工作时,他注意到该研究中心有一个非常棘手的问题。世界各地的研究人员来到这里进行科学实验,并记录下他们的结果。但是,这些实验结果被以不同的格式存储在不同的系统中,使得相互之间难以共享。

因此,李于1989年11月创建了三个著名协议:HTTP、URL以及HTML,创建了关于文档的通用平台。最终这三个协议构成了现有互联网的基石,使得我们能够以前所未有的方式共享信息,在很多方面最终改变了世界。

尽管如此,李在回忆录中还是承认这种网络的缺点:虽然它能够以前所未有的方式使人与人进行沟通,但是对于机器与机器之间的通信却做得很少。换句话说,它让我们呢的思想能够自由流动,但我们的数据却依旧被困在各自的系统中。

数据的问题

现在的每个组织在数据上都存在类似CERN在上世纪80年代所遇到的问题。他们通过各个系统收集数据,由不同的部门管理,很多系统有几十年的历史,所应用的计算环境也完全不同。

诸如一个典型的零售企业,其有各自独立的采购、销售、库存以及市场业务。所有的这些业务在与真实世界交互的过程中,都在不断地产生和存储数据。理想情况下,这些系统应当是紧密集成的,一个业务产生的新数据可以影响到另外业务的决策。

但事实上,不同的业务之间很难无缝对接、携手共进。这些系统往往以不同的格式存储信息,这使得人们很难获得数据的全部价值,譬如现实中营销活动的相关数据会影响网站和商店的客流量,但是作为决策者经常需要将其从系统中提取出来加载到分析表格中。

实际上,我们有了分析海量数据并获得相应决策的工具。屈臣氏所使用的高级认知系统可以利用大数据进行学习,指导相应的行动决策。但对于这些工作的共性前提是,需要访问不同系统的信息数据。

建立综合数据环境

这一切并不是说,我们处理数据的方式在过去十年并没有真正的进步。于2003年上线的Hadoop可以将数据分散存储在成千上万个世界各地的服务器中,并将其看作一个数据集进行分析。而2014年发布的星火系统,可以帮助人们实时分析数据。但是,目前不同系统的兼容性仍是数据分析面临的最大问题。

让我们回到零售业的例子,假设我们能够实时的营销活动建立一个采购预测模型,将其与库存系统的数据整合到一起,使我们能够避免缺货或是库存过多。看起来很简单,但是由于数据分散在各个独立的系统中,所以很难实现。

这也是IBM的数据科学实验这个通用平台所要解决的问题。IBM副总裁罗伯·托玛斯(Rob Thomas)、大数据革命一书的作者告诉我,“今天数据科学是一项个人项目。我们现在所做的就是要把它变成一项团队项目,各个独立的组织可以共同创建、分析以及共享数据。”

可以说,IBM数据科学家在实现李对互联网所做的工作,只不过处理对象从文档换成了数据。将分布于世界上的各个孤岛数据整合到单一的系统环境,使人们更有效的工作。

管理的挑战

美国意识流文学作家,诺贝尔文学奖获得者威廉·福克纳(William Faulkner)曾写道,“过去的从未消逝,它甚至并没有过去。”在计算机技术发展的过程中,各种新老技术交织存在。我们呢并不是重新构建技术,而是停滞在一个个技术的顶端,这些技术罗列开来,仿佛精心制作的俄罗斯套娃。

当我们尝试将新老系统进行结合,但随之而来的问题是管理措施显得更加落后。我们设计开发的计算机系统很大程度上反映了当时的组织形式和思维方式。一旦平台建立,技术壁垒被打破,我们的管理思维在很大程度上受到自身的限制。

今天,我们生活在一个语义经济环境中,信息在整个市场上自由流动。各色设备和传感器令人眼花缭乱,也让我们能够在现实世界自由互动。但我们往往希望按照计划行事,希望世界有序运行。

当代创新大师史蒂夫·布兰克(Steve Blank)经常说,与客户的第一次接触没有任何商业计划。但我们都停留在规划思维的定势,倾向于用历史数据来预测事态发展,随后根据预测结果进行决策分析。经常会在会议室里就决策讨论数月,也会纠结于工作为什么不能按照计划进行,无法掌控。

很显然,这种心态站不住脚。从技术层面,我们需要采取诸如贝叶斯的方法策略。虽然并不期望预测的结果完全正确,但可以让大数据帮助我们减少错误的发生。大数据并不是灵丹妙药,但它的确可以帮助我们把这个世界看的更加清晰。(宁宇)


文章关键词
大数据 Hadoop