从最早公元前2000年文字诞生起人类就开始采集数据,到1998年正式提出大数据这一概念,实际上数据的发展已经横跨了上下4000多年的时间。在这一漫长的历史演变中,人类共经历了四次工业革命,从最早以蒸汽技术为代表的工业1.0,到如今以智能和互联网为代表的工业4.0,制造业也迎来了其全面蜕变的时刻——智能工厂时代的强势来袭。
毕业于美国卡内基梅隆大学、专注于制造业大数据研究的昆山杜克大学教授李昕认为,在人工智能和大数据愈发渗透的今天,如何更好地收集数据、分析数据、利用数据才是企业根本。尤其是制造业,作为立国之本,量级更是惊人,如何用数据助力智能制造,点“数”成金?
在李昕看来,数据分析在制造业应用有两大技术难点:第一个是数据变异性,第二个是工艺的变化。对于未来大数据的发展,李昕也表示,最大痛点在于“懂数据又懂行业”的双料人才的匮乏。在这点上,不管是学校,还是企业,都任重道远。
以下是李昕教授在2017IT 价值峰会暨中国企业级技术峰会上的演讲,经ITValue编辑整理:
我本人主要从事制造业大数据的研究,是台湾富士康集团总裁郭台铭先生的大数据顾问,同时也是香港两家公司的董事。
互联网时代,数据暴增。目前每两天创造的信息几乎相当于人类有史以来到2003年所创造的信息总和。这是什么概念?在美国,每分钟就会产生2.04亿封邮件,Facebook上会有180万次的点赞、20万张照片的上传。而且这个量级还会随着时间不断上升,大概每1.2年就会翻一番。
如此庞大的数据量怎么才能很好利用?我们先来看一下大数据应用的现状。过去5-10年,大数据的发展主要集中在三个方向:图像、视频、语音。国内外很多IT公司在这三个方向上都取得了非常成功的发展。今年3月,李克强总理在政府工作报告上强调,要把人工智能、大数据推广到各行各业中,包括商业、医疗、制造、教育、城市等。这意味着,未来大数据将会渗透到我们生活的每个环节中,发挥越来越重要的作用。
要利用数据就要先分析数据。大数据分析需要两类人:数据分析专家和行业专家,二者缺一不可。谷歌过去十年一直在推自动驾驶技术,但是两年前意识到,自动驾驶并不是一个IT公司的数据专家就能单独完成的事,还必须和各个整车厂包括本田、福特等的行业专家合作,共同研发产品。
智能工厂时代全面来临
就制造业来说,数据量的庞大难以想象。中国具有强盛的制造业,如果利用大数据把制造业的效率提高10%,那么创造的利润非同小可。在美国,奥巴马时期就提出了智能制造的战略,欧洲老牌制造强国德国一直在提倡工业4.0,新加坡也有明确的规定国家GDP必须有15%-20%的贡献是来自于制造业。
没有制造业,一个国家就丧失了生存之本。
回顾起来,制造业的发展大概经历了四次工业革命。
第一次工业革命发生于18世纪60年代,主要以蒸汽技术为代表的工业1.0时代;
第二次工业革命是在19世纪50年代,以电力为主要能源的工业2.0时代;
第三次是20世纪50年代,以计算机技术为代表,把计算机技术应用到工业控制中的工业3.0时代;
最后一次就是当今以智能和互联网为代表的第四次工业革命即工业4.0时代。
这次工业革命对制造业来说非比寻常,它意味着智能工厂时代的全面来临。什么是智能工厂?在每个工厂的每个车间的每个机台上都安装有很多传感器,不断地采集数据,并对数据进行分析,从而优化生产线,降低成本。这个数据量有多大?制造业有一项技术叫自动光学检测(AOI),每个零部件生产出来后都会被拍照检验质量的好坏。倘若按每分钟收集一张1M像素的图片来估算,一台机器一天产生的数据就是1.5G。每个工厂有N多个机台,N多个传感器,总的数据量可想而知。
大数据提升制造流程的4大应用
这么多数据能拿来做什么?第一个应用就是调度优化。
在智能车间里,机台与机台之间的产品传递主要靠机械手臂来完成,而车间与车间之间的产品传递则是通过传动带来完成。所谓调度优化就是通过数据分析,了解每个产品在每个机台上需要处理的时间,然后决定出把某个产品送到哪个机台去处理的最优解决方案。这个事情看起来容易,操作起来却很难,正如车辆在路上突然抛锚造成交通拥堵一样,如果一个机台出了问题,就会扰乱整个调度的优化方案,更糟的是如果发现某个产品不合格,就需要被重新发配到某个机台重新处理,那么就会导致整个调度非常复杂,处理不好就会造成“拥堵”,甚至停工。
大数据的另外一个重要应用就是设备监控。产品制造分许多步骤,如果第一道工序出了故障没有立刻发现,等生产出来之后经检测时才发现,那就意味着这段时间里生产的全部产品都要报废。这是个很严重的问题。设备监控就是在每个机台上都安置多个传感器来监测设备是否有故障。美国有个大型制造企业,曾经成品率总是提不上去,经多方查找后才发现,原来是一个机台在清理时出了问题,早班清洁工是从上往下清理,晚班清洁工是从下往上清理,就是这样一个个小小的瑕疵就会对整个生产线造成几百万甚至几千万美金的损失。
第三个应用就是虚拟测试。在制造业中,测试占整个制造成本的25%-50%,怎么用大数据降低测试成本?最根本的一点就是利用数据的相关性,也就是用数据去分析不同的数据量之间是否相关,如果存在相关就可以用一个数据量去估计另一个数据量。
这里有两个例子,一个是空间的相关性。在集成电路制造中,一块硅片包含很多芯片,传统的方法是每个芯片都要去测试,如果我们把整块硅片看作是一幅图像,那么不同的像素对应不同的芯片,像素点之间是有相关性的,我们可以通过测试少数几个像素点的值,利用统计方法来估值另外的像素点,从而大大减少测试量。
另一个例子是给金属块钻孔。钻孔是否平整?是不是圆形?在制造业上是一个非常昂贵的测试过程。我们通过在钻孔机上安装各种非常廉价的传感器,包括震动传感器、声音传感器、压力传感器等,用这些传感器的测试值去创建一个模型,然后预估钻孔的平整度和质量状况,从而节省很大一笔成本。
第四个应用是故障追踪。监控生产线中产品的制造过程,发现故障的根源。故障可能是某一个机台,可能是某一种原材料,也可能是某一位操作员。
大数据分析在制造业应用有两大技术难点:第一个就是数据变异性,不同机台,在不同时间、不同环境下的数据具有不同的统计特性,也就是说,在这个机台上采集的数据不可能直接拿来去用于另一个机台的建模。当你把采集到的数据分配到每个机台、每个时间点、每个不同的环境条件下去做分析的时候,你会发现数据量其实并不大,甚至很小。另外一个难点是工艺的变化。制造工艺随时间在不断演变,同样一个产品,今年制造出来的测试结果和明年制造出来的测试结果完全不同,因为产线在不断变化,这是大数据分析的一个软肋。我们分析的数据都是历史数据,所以大数据分析实际上就是两步,第一步记录历史数据,第二步根据这些历史数据去预测未来。如果由于工艺变化导致未来和历史是不一致的,那么大数据分析的最根本假设就已经不成立了。这也是大数据分析的一个痛点所在。
怎么去解决这一问题?从我来看,大数据未来发展的一个最大难点就是缺乏复合型的人才。要找到一个既懂数据又懂专业领域的双料人才非常困难,所以培养跨学科的人才是我们昆山杜克学校的一个重要任务。
昆山杜克大学刚刚成立了一个大数据中心,里面有很多昆山杜克大学的教授,以及美国杜克大学的教授,我们一起合作致力于中国大数据人才的培养,也希望与中国的企业合作共同贡献一份力量。