2016年12月5日,清华大数据技术·前沿系列讲座——“工业大数据的技术趋势与应用场景”在清华大学FIT楼多功能厅成功举办,本期讲座邀请到了阿里巴巴集团副总裁、阿里云业务总经理刘松、航天科工集团航天云网科技发展有限公司副总经理祝守宇和阿里云事业群数据业务总架构师周卫天来为大家介绍工业大数据的建设背景、发展现状、国家战略、发展趋势、竞争对手、发展启示及建设意义。
一、数据技术(Data Technology)的发展趋势作。目前数据成为互联网平台企业的关键技术,包括苹果、谷歌、亚马逊等全球十大科技公司都逐渐演变成数据化、智能化的平台公司。数据技术的(DT)发展将对各行各业产生影响,新一代信息技术的优化使得全球的软件定义、数据驱动的商业模式逐步明显,数据智能也会在各个传统行业得以应用。
二、中国工业互联网的路径选择。德国公司发展工业4.0的原因是害怕谷歌、facebook等互联网平台公司对消费互联网数据的控制,提出工业4.0与其抗衡;而美国以GE为代表推出了predix平台,但仍然采用着将软件工程作为工业附属的操作模式,这种模式目前看来可行,但是横向扩展有限,而美国东西海岸的科技界对此仍处于不合作状态。目前在中国,基于良好的移动互联网经济,如果将互联网的平台模式和传统工业(包括汽车、飞机、机床、能源互联网)等产业结合起来,探索出新的跨界重混模式,会因为巨大互补效应而产生化学反应,中国制造业可能会走上一条换道升级的路径。
三、中国工业大数据的挑战与机遇。目前中国的工业生产模式很重,通过数据智能改进的产业机会非常大。除了技术和产品层,中国工业大数据要解决的非技术挑战主要有两点:一是文化的问题。工业企业文化和互联网企业文化差异很大,要解决work together的问题;二是人才的问题。这个领域需要的人才非常广泛,要有对工业本身理解的人才,需要了解具体的生产工艺,要有工业软件人才、要有数据处理的人才,这个领域是一个绝对跨界融合的产业,难点在于跨界合作的人才集成。工业大数据的推进问题,我们首先考虑的是能不能把人才高效地积聚起来。人的要素、文化的要素是推进工业大数据两个最重要的因素。
那么如何看待工业互联网产业呢?通过与消费互联网对比,我们可以得到更好的理解。消费互联网时代是以人的连接为主,主要形式实际上是手机和PC,手机数据量又远远超过PC。它的数据产生于三个方面,PC、手机、消费型智能硬件(手环、手表)。工业互联网以机器生产系统为主,数据来源主要有三项。第一个是复杂装备,第二是生产体系,第三个是工业级的智能硬件,比如说空调、充电装置、路灯等等小型的装备,大的复杂装备包括航空发动机等等。全球的物联网,连接进网的设备,预计到2019年大概是250亿个,PC和手机大概八九十亿。从设备链接的数量来看,工业设备的联网要远超消费联网。
我们来分析一下消费互联网的产业链条。消费互联网的产业链条是通过手机和PC产生数据,通过基础平台运营商为链接(移动、联通等),在运营商之上产生BAT类似的应用,这一类应用从运营商的角度来讲叫OTT。整个产业的推动实际上是通过运营商来完成的,向下来推动手机和智能硬件的发展,向上推动应用的发展,当然最有价值的就是这个行业的推动者。
同样的,工业互联网中采用的数据不一样但数据设备仍然是最顶层的基础,往上一层是现代的云计算大数据平台,是像航天云网和阿里这样的企业等等,再上面的是一些工业级的应用,所以从产业推动来讲,跟消费互联网很类似。最终价值和重要性,需要靠中间的平台层去推动整个产业的发展。借助业界的大拿讲的话,“远景清晰可见,工业互联网”是变革的真正机遇,这将远远超越“消费互联网”。
相比于大数据技术在消费级互联网中的应用,我们的工业大数据是大家更应该投入的产业,这是一件举足轻重的大事,我们也能够在更大的舞台上,做出更多对人类发展有巨大贡献的事。“资源共享、能力协同、开放合作、互利共赢”是航天云网人的企业内涵和精神理念,作为国家的战略性平台,欢迎大家加入我们的队伍,也欢迎大家跟我们合作。
周卫天老师通过融合一些案例对整个大数据领域的技术发展趋势与工业大数据的技术驱使向在场的观众进行分享。
DT时代已经来临。数据取代石油,成为全球经济基础要素。IT技术成为重要生产力,云计算成为基础设施,互联网+物联网构成万物互联的信息交互渠道,全球市值TOP5第一次全部都是科技公司:Apple,Google,微软,Amazon,Facebook全部是云化、数据化、智能化的公司。
2009年,马云先生讲了阿里巴巴是一家数据公司,在2010年的时候,马云先生反复强调要做云计算,坚持发展云计算。数据平台的核心是软件能力,未来五年,大数据的发展趋势就包括延伸软件平台,把传感的技术、芯片的技术集成起来。
阿里在实战中的阿里大数据是怎么来的?首先体现在支付能力上。刚刚过去的“双十一”,阿里有两个惊人的数据,12万笔/秒支付的顶峰; 峰值支持能力10分钟,30分钟压测能力,10.5亿笔总支付的记录,电商平台、蚂蚁支付拉高了整个阿里体系的技术能力。这类金融系统每秒十几万笔是非常了不起的数据。
阿里在数据处理上的经验总结为两点。第一,是数据处理,第二,是人工智能。阿里有一个天池平台,由于支持大量多业务,今天阿里已经有了几百万张表。在我们国家,比如一些大的部委,十几万张或者是几十万张表已经很大了,当我们处理百万张表的时候,建模就不能用传统的方式来做。按照我的主要业务营销、财务、实践模块,把表与表之间的关系,设计地非常圆满,然后基于这个之上再来开发应用。在阿里,因为互联网的快速增长、野蛮增长,来一个业务就建一个表,一个表拉几个字段,每晚会对增量数据进行对比,这是阿里本身的一套技术体系。所有元数据表,每一个字段都有一个开发的同学认领,对主要的所有字段都会按照数据的级别、按照业务的重要程度、调用的频率排重要度进行排列。数据之后会经平台的甄别来判定数据的可信程度。确保了数据质量的准确性、唯一性,数据的准确性对数据分析至关重要。
第二,今天,阿里云后面有一支比较大的团队做视觉智能、语音智能。将数据打通,包括线上线下的数据,网上的虚拟身份的ID,怎么跟电话号码、身分证号码怎么打通,把数据进行有效的利用。阿里拥有一个天池众智平台,所有涉及到高级算法、智能算法的问题,通过众智平台,由阿里自己的科学家把问题的目标、问题进行分解,平台上五万名科学家和算法爱好者提供一个最好的方案。正是因为这样一个大数据智能平台才支撑了阿里形形色色的业务。
阿里在2013年开启登月工程,把原来很多的业务、支付宝、小贷、集团的B2B,以及后来已经开始有收购的业务,做到统一的平台上来。
阶段一:阿里启动前约2到3个月进行了全面的工作准备,进行了公共平台和服务层的建设搭建;数据规范、指标体系、数据安全、质量控制的流程制度及工具的开发;成立了登月数据委员会(全职同学不同时期约七到十人左右;虚拟团队的同学每个主要业务团队都规定了对接接口的同学)
阶段二:2014年正式启动从云梯1迁移到云梯2的过程,最终分解为几十个登月项目。云梯2中开发、调度、质量控制和元数据管理Meta是全新的、不一样的一套体系。比如:DQC和ODPS底层的大数据统计分析功能、计量功能的演化。光是元数据Meta管理和统计分析的模式和云梯1里面的Oracle库、GP库、开源Hadoop库很不一样。2015年6月所有老系统全部接管,完成了新旧系统的并除。
对于大数据的技术走向和趋势,周总提到了三点:
一、智能化
所谓智能化本质上是计算机化,不是固定僵硬的系统,而是能自动执行程序、可编程可演化的系统,更高的要求是具有自学习和自适应功能。无人自动驾驶汽车是智能化的标志性产品,它融合实时感知、 导航、 自动驾驶、 联网通信等技术,比有人驾驶更安全、更节能。
二、个性化
个性化的背后是大数据和视觉识别技术的发展。人脸识别、语音智能、OCR证件的认证,这是个性化很早的一面。最新的语音识别的数据是利用深层的神经网络,正是由于现在数据的爆发,以及计算处理能力的提升,也就是GPU很多的能力,今天生成的神经网络已经能够计算到12层、13层了。
个性化的数据库。以某衣服制造厂商的数据库为例,其版型数据库能做到3000+版型/天,而如果使用手工打版,每天生产1200多套西服的红领,至少需要500多个打版师傅。款式数据库,这是实现客户订单提交、产品设计、生产制造、采购营销、物流配送、售后服务一体化的开放性互联网平台,做到了个性化和融合化的完美契合。
个性化的搜索引擎-千人千面。实时预测用户对物品偏好,个性化推荐,千人千面,支持定制推荐算法。
三、融合化
大数据跟工业制造当中的特征工程是可以结合的,让大数据去完善、加强原来特征工程中对于工业制造的质量控制、质量改善、良品率的提升,同时大数据的分析能做传统特征工程不能做的事情。
智能工厂、货运列车故障检测需求分析、重型的设备公司等等,这些重型机械企业都在转型,通过大数据可以预测出最有价值的客户,甚至在融资、将来设备的租赁方面等都有贡献。
我们的大数据跟工业的特征工程、传统经验融合起来,产生更多的智能,从而让大数据能够真正地为智能制造、互联网+的华丽转身做一点贡献、做一点力量。