javascript:; 大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用-科技创新-能源财经网-新能源财经门户网站

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

有一款数据处理软件,正式版才公开1年的时间,就已经被“Uber”、“Airbnb”等备受关注的新兴企业以及丰田等大型企业采用,美国IBM将其称为“今后10年内数据领域最重要的开源软件(OSS)”,并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。

2015年6月15~17日(美国时间),用户大会“2015年Spark峰会 ”在旧金山市举行,参会用户达到了2000名(照片1)。

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片1:“2015年Spark峰会”吸引了2000人参加

在本届大会上,出租车配车服务商Uber Technologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局(CIA)等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办,宣布为Spark相关项目投入3500名研发人员。

Spark是美国加利福尼亚大学伯克利分校开始开发的OSS,目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark 1.0”刚刚于1年前,也就是2014年5月公开。

尽管如此,Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢?下面就根据用户在2015年Spark峰会上公开的相关内容,介绍一下Spark的现状。

Spark是通过让数十~数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能,因此无需使用昂贵的大型服务器,就能以较低的成本进行大数据处理。

丰田利用Spark提高“机器学习”速度

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片2:丰田美国的数据科学家Brian Kursar

Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司(丰田的美国法人,Toyota USA)数据科学家Brian Kursar表示,“通过使用Spark,可以使以前需要花费36小时的机器学习处理时间缩短至9分钟”(照片2)。

#p#

机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统,可由计算机根据内容,对“推特”(Twitter)等SNS(社交网络服务)上用户写下的留言进行自动分类。

用户在SNS上针对丰田写下的留言是关于“丰田车性能”的,还是关于“丰田专卖店(经销商)服务”的,亦或是关于“丰田CM”的呢?计算机通过对大数据进行机器学习,自动找出了用来进行这种判断的“规则”。并利用Spark进行了这方面的相关处理。

Kursar称,“SNS上的留言数据非常庞大,由人来查看这些内容是不可能的。通过开发出这种可自动判断出用户留言内容的系统,可以从庞大的数据中找出有助于改善产品和服务的有益留言”。

利用存储器进行高速处理

为什么Spark能够高速进行机器学习处理呢?下面就介绍一下其工作原理。

机器学习可根据相关数据,采用统计方法,针对计算机制定的“规则”与现实规则的相符程度进行多次验证。Hadoop在每次进行这种验证处理时,都会从硬盘(HDD)中读取数据,或者将数据写入硬盘。因此,需要花费较长时间来处理。

而Spark通过将所需数据保存在存储器上来进行这种验证处理。由于不使用低速硬盘,因此与Hadoop相比,可以缩短处理时间。

而且,Spark还可以与Hadoop共存。原因是Spark可以对Hadoop的标准存储器“HDFS”保存的数据进行处理。Spark的主要开发者之一、NTT DATA基础系统业务本部的猿田浩辅表示,“Spark可对Hadoop起到补充作用”。对于现有Hadoop用户而言,Spark能够轻松导入,因此该软件在短短1年内就迅速普及开来。

在Spark峰会上,Databricks首席技术官(CTO)Matei Zaharia介绍了Spark的用户等情况。

最大用户为腾讯,服务器数量达到8000台

Zaharia称,目前Spark使用规模最大的企业是中国SNS运营商腾讯(Tencent),该公司在8000台服务器上使用了Spark。中国EC(电商)阿里巴巴集团则使用Spark一次处理高达1PB(Peta Byte)的数据。

中国企业对使用Spark非常积极。在中国大型搜索网站百度的美国法人百度美国担任资深架构师的James Peng在2015年Spark 峰会上登台发表主题演讲,介绍了百度使用Spark的情况(照片3)。Peng表示,百度目前使用1000多台服务器来运行Spark。在互联网广告、搜索、地图服务、EC等业务领域均使用了Spark。

Peng介绍说,“对于百度的机器学习来说,Spark是不可缺少的平台”。该公司目前正在考虑扩展Spark,使其能够用于以人脑为模型的机器学习方法“深度学习(Deep Learning)”的处理。

Airbnb通过机器学习技术制作需求预测模型

此外,Airbnb及Uber等公司也在Spark峰会上发表演讲,介绍了Spark的导入实例。据Airbnb介绍,该公司使用Spark开发出了一种系统,该系统能以天为单位预测全世界不同城市的住宿需求,为房主确定房间价格提供帮助。

在Airbnb网站上,出租房间的价格每天都在发生变化。这些房间的价格是根据Airbnb向房主提供的“定价辅助系统”来确定的。定价辅助系统根据计算机对50亿个住宿相关数据进行机器学习之后制作出来的需求预测模型,向房主建议合理的房间价格。

虽然Uber并未透露在什么业务中使用了Spark,但表示多个业务部门都在使用Spark,同时该公司还介绍了多个部门共同使用Spark时的技术诀窍。

在Spark峰会上大放异彩的是CIA首席信息官(CIO)道格·沃尔夫(Doug Wolfe)的主题演讲(照片4)。CIA从2014年开始使用Spark,目前已有200台服务器使用Spark。沃尔夫认为,“CIA必须从庞大的数据中及时抓住一些征兆。因此,数据分析速度非常重要”。他表示,要提高数据分析速度,必须使用Spark。

CIA需要OSS

沃尔夫还介绍了CIA积极使用Spark等OSS的情况。CIA于2014年委托Amazon Web Services(AWS)在CIA数据中心内构建规格与AWS的公有云完全相同的云环境。沃尔夫表示,“AWS的吸引力是可以使用包括OSS在内的多种软件,AWS本身已形成OSS的‘生态系统’。我们也需要在CIA的云中建立与AWS相同的生态系统”。

在此次的Spark峰会上,除了丰田的美国法人之外,并没有其他日本企业发表演讲。不过,在2014年Spark峰会上,NTT DATA发表了演讲,而且在本届Spark峰会举行期间,NTT DATA的猿田就任Spark核心开发者“Comitta”。Spark的星星之火也已开始燃烧到日本。


【责任编辑:admin】

免责声明:本文仅代表作者个人观点,与能源财经网无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性,本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。涉及资本市场或上市公司内容也不构成任何投资建议,投资者据此操作,风险自担!

凡本网注明 “来源:XXX(非能源财经网)”的作品,凡属媒体采访本网或本网协调的专家、企业家等资源的稿件,转载目的在于传递行业更多的信息或观点,并不代表本网赞同其观点和对其真实性负责。

如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理、删除。电话:400-6197-660-2