非常荣幸有机会跟大家分享对大数据、新经济、新动能的一些看法。
“新经济” 、新动能,是这两年政府工作报告中常出现的词汇。如果传统的以劳动力密集型制造业为主、出口导向的发展模式已经到了必须转型的地步,那么大数据对于中国的经济转型,可以扮演什么样的角色?这是我们希望能一起探讨的问题。
回到政府工作报告当中来看,如果是旧的中国制造出了问题,路在何方?
政府工作报告当中出现特别多的词就是“创新”。从2014年以来“创新”一直就是很重要的词,但出现最多的就是2016年,61次;今年一共是39次。其中提到“新动能”5次,“大数据”2次。
如果“中国制造”在可以预见的未来,因为国际环境的变化、国内的环境污染等原因而必须转型,有没有“危”中蕴含“机”,使我们从此走向“中国创造”?从中国制造到中国创造当中,以及过去我们讲“四小龙”遇到的问题的时候,其实和现在有一个很大的差别,这个差别就在于大数据时代的到来。
大数据时代的到来,新动能在实体经济当中是不是有反应?
我们在做新经济相关研究的时候,看过网络招聘的数据。我们看企业在有招聘需求的时候,按照他们招聘的岗位、带有的关键词,把他们愿意给的工资做一个排序。可以看到,从2015年8月到2016年2月这半年时间,名称中带有“研究”二字的通过网络招聘的企业,在招聘广告中给出的工资增长速度非常快。这就说明我们在发展新动能的时候,其实对于分析未来可能的态势的研究有特别大的需要。
这个需要就让我们又回到了连续四年都作为一个主题词在出现的词语——大数据。如果我们要理解今天我们国家的大数据产业处在什么位置,我们还是需要再回头梳理一下过去大数据是一个什么样的发展态势。
我们注意到在政府工作报告当中第一次出现“大数据”这个词,是在2014年。当时对大数据的期待是“赶超先进,引领未来”。我们对于先进是一个“赶超”,然后期待可以凭借这个领域来 “引领未来”的态度。因此在2014年我们国家对大数据基本还是处在“头脑风暴”的时期。
到了2015年有一个提法,方向是推动大数据跟制造业相结合。其实只是提供了一个方向,具体要怎么做我们还不是特别清楚。
到了2016年,政府报告总结工作的时候指出我们已经在各个领域深入推进了。
到了今年的时候,比较特别的是我们用的词已经从开始的“赶超”,到“推动”,再到“深入推进”。现在是加快大数据、云计算、物联网的应用,还提出了智能制造作为主攻方向。
传统的制造行业难以为继,智能制造指什么呢?
以我自己生活当中的经验,我们知道,每个家都有些基本家务,如洗衣服、打扫等等。我们知道有扫地机器人,但是智能制造状态的扫地机器人是什么样的呢?在智能制造下,这个机器人可以按照家庭的习惯来设定程序,可以教给它哪些地方是特别需要清理的。几遍以后它就掌握了,就可以自行在家里清理。
再如洗衣服。现在的洗衣机有很多的设定,衣服的品质不一样洗法不一样。但如果我个人也不懂我的衣服该怎么样洗怎么办?但是未来很可能下一步的方向就是在智能制造这个领域里面,洗衣机自己可以识别。你把衣服放进去以后就能识别这个衣服的成分是什么,需要选择什么样的洗涤方式。
要实现这一步,背后要有很多的数据运算:
第一个就是对家庭的习惯有一个学习之后,可以让它学会了贴近,来解决这个家庭的问题;
第二个是智能洗衣机,用到一个国家洗衣服的习惯,再结合个人家庭的习惯。让这个洗衣机可以自己来识别,这个衣服放进去就应该是怎样的洗法,不需要我再做调整了。
再说一个跟生活比较接近的例子——健身。
在新经济相关研究中,我们看到在招聘需求方面增长得特别快的一个领域是健身教练。健身是新的行业,不知道大家有没有去过健身房,我不太愿意去,因为跑步机太枯燥。
现在接下来的有可能的智能制造是什么呢?
造一个不太大的房子,我可以在里面徒步。比如我想在大峡谷徒步,我就可以选择这个模式。这个智能制造当中不仅需要在技术上实现,你其实是在屋子里转圈,但是给你的感觉是在走直线,有坡度。另外还要结合虚拟现实,有了移动互联网和大数据之后,虚拟现实的技术可以收集信息。如果我们在大峡谷徒步有相应的湿度、温度、鸟的叫声,这些东西都要搭配进来。
所以智能制造未来有好几代,第一代是我们现有的机器人,已经有机器人可以在家里面扫地了,但是可以让它更加先进一些。第二代就是衣服可以来选择,高端的一些就是可以结合虚拟现实的状态,你不需要到很远的地方就可以实现我们的需求。
所以在智能制造的领域里有非常广阔的发展空间,我个人觉得在政府工作报告当中把智能制造选为一个主攻的方向,确实是非常明智的选择,也可以看到大数据的发展有一个更好的切入点。
说了这么多好处以后,到底什么是大数据呢?我来给大家举个例子。
不知道大家有没有看过一个电影,英国的纪录片《人生七年》,他们选了英国的14个孩子,有孤儿院的,有上流社会的,来记录他们的发展状况。这是一个小数据时代的收集方式,纪录片开始做的时候就有一个目的——追踪人们,选样也是经过精心的设计的,代表社会的各阶层,这是一个小数据的模式。大数据的模式是什么?就是刚刚设想的智能制造,未来的家庭,只要你在家里就自动开始录像。如果用这个自动录像,我们再联络对比在人生家庭当中记录的14个孩子的成长历程。未来的家庭给你记录了好多的信息,走路的声音、孩子信息,大人的信息也有。
这一年的数据和前面讲的开始追随到今天的,两组数据哪一个更好?
这时候我们就注意到有一些错误的观念,认为“有了大数据就好了,大数据可以告诉我们所有的事情”。但是显然我们可以知道,对比这两个数据的时候,14个家庭追踪了几十年的数据,和很细的某一些家庭所有的信息放在一起,这两个的品质不能对比。
应用在现实当中,比如我们在互联网金融里用到大数据风控的部分,如果只是用一些网络收集到的居民短时间内的消费习惯,而没有去追踪整个金融的比较长的周期,但要去做风控,还指望它做得非常好,那需要有很大的假定在里面的。
大数据够了吗?其实大数据很多时候是不够的。
另外我们还要看到在中国应用的现实当中,很多时候数据是以什么样的状态呈现的?数据孤岛。比如我作为一个消费的平台,有很多关于消费者比较细的信息,买了这样东西,这个东西多少钱等等,但是我并没有这个家庭背后的资料。这个时候一些数据孤岛在应用当中也都会有一些问题,也许我的分析对于某一种商品的消费是可以的,但是如果想拿它去分析这个家庭其它的习惯,恐怕是不够的。
在国际当中现在又提出“数据湖”,就是数据之间要打通,形成一个湖泊。其实大数据相互之间没有什么联络,使用当中也有很大的限制,这也是我们会遇到的问题。
我们在实证当中很多时候大数据的运用到底效果怎么样?
比如大数据基金。其实在中国也有这样的产品,我们也有看过他们在开发产品的时候容易遇到一个挑战,就是在开发这个产品的时候,拿大数据算出来的策略比其它策略好很多,但是拿到现实当中去的时候,比如股灾的时候发现大数据的基金有很大的回撤,于是导致证监会对大数据基金采取非常谨慎的态度。产生这些问题的主要原因是什么呢?
回到刚刚说的例子,很多家庭收集了很多很细的信息,但是这些信息质量的好坏的标准是什么?产生很多的冗余,这些东西怎么处理?很多时候没有一个判断和检验的标准。
我不知道这些数据的质量是好还是坏,只能凭我自己的感觉,我觉得它好,我就去推销这个想法。如果大数据是这个用法,那么指望大数据分析能够长久、大规模地有很好的回报,可以说想多了。
大数据的数据孤岛问题、数据质量如何解决?
其实《国家大数据战略》里面写得比较清楚:开放共享是未来趋势。
开放共享当中,不能回避的就是政府数据的开放共享。可是现实当中我们接触一些数据相关项目的时候,我们发现开放共享数据还有蛮多的困难。
第一个困难就是开放数据的合法性问题;
虽然《统计法》指出,虽然提到“县级以上人民政府统计机构和有关部门统计调查取得的统计资料,除依法应当保密的外,应当及时开放、供社会公众查询”,但目前的法规要求统计部门上报的主要是各级人民政府,这就让地方统计部门不易拿捏哪些信息需要开放、哪些不需要开放。
第二,数据标准不一,质量良莠不齐;
即便是一家大型国有银行,各个部门之间如果想共享数据的话,都会存在一个问题:对于同一个东西,不同的部门之间因为自己的业务需要,定义不一样,标准也不一样。因此就使得标准不一,质量良莠不齐。政府觉得我把数据拿出去了,大家觉得都不准,制造出很多的问题,所以还不如不做。
第三,数据共享究竟跟谁共享?
目前地方统计部门在将数据开放给其他部门、企业、学术机构等的权限往往并不明确,因此数据究竟可以跟谁共享的尺度的拿捏往往也需要各个单位自己判断。
我们已经走到这个节点,这个节点就是“智能制造是未来的方向”,我认为可靠的大数据分析,需要做到“大小结合、人机结合”。
“大小结合”,是指大数据的使用要和我们现有的小数据结合,才能够判断这个大数据的质量怎么样、它究竟在哪些程度能用、哪些不能用?
“人机结合”,指的是我们用大数据的时候也不能说“这个算法很先进,一定要用我们专家的想法”,而是要和中国的现实结合起来,才有可能生长出好的大数据项目。所有这一切都需要能够在一个有计划、有步骤,合法的框架下完成数据的开放共享。
对于开放共享,需要有步骤推行数据治理。需要有专门部门,统筹和协调各个部门之间的数据共享。在横向各个部门之间统筹协调,不然平级之间大家很难谈共享和分享。纵向之间可以推动优秀的治理经验在同一行业内的分享与推广。比如一些大型国有银行在整治自己数据的过程中有很多的心得和体会,怎么样给其他的中小企业进行分享,让他们在现有的状况下把数据整合好,实现这些部门之间的数据有更多的共享。
另外其实也可以对开放共享有更加明确的一些思考,到底开放的是什么?对谁开放?如何开放?
这里我们要明确的一点就是,开放不等于免费,开放也不等于完全对社会公众来开放。所以做一个分级的安排,对于一些基本的数据,公众有知情权的,我们可以仿照国外的部门,比如美国可以提供给公众查询的资料。这些我们把它分级作为底层的级别,公众可以使用分析的。再往上可以根据不同的安全级别,签订数据协定,让数据在使用当中达到数据的安全和数据的共享之间的平衡。
总之,大数据分析给我们带来了新的发展机遇,但是也带来了很大挑战。政府工作报告中还提到,数据是资源,或者说资产。如果数据是资产,我们拥有13亿人,因此我们的数据资产也是最多的。如果能够在数据开放共享方面更多着力,使大数据分析更加可靠,对新旧动能的转换,是可以带来很大空间的。谢谢大家。
问答环节:
提问:我有个问题,其实像刚才您说的一样,数据如果准确的话就是好的数据。但是现在的大数据好像又面临一个问题,没法准确。请问后续如果再从大数据的源头开始,怎么提高数据的准确性?这个很关键。
沈艳:在数据分析当中,如果数据质量差的话不要指望能分析出好东西。
我怎么知道数据质量好坏呢?
其实我需要有一些锚点,“大”“小”结合。我们在小数据当中,比如我们有一些几十年来使用过的统计资料,不管是关于国家的宏观经济状况还是微观层面的数据,或者细到一家银行已经有一些信贷的资料也好,这些资料是相对准确的,绝对准确是没有的。
相对准确这个事情怎么说呢?
我可以帮大家做预测,如果我对于这个规律的把握是比较准的,我对于未来的预测应该和未来的差别不太大。你刚刚提到的不准的问题,比如大数据基金有一个比较明显的体现,我在做测算的时候,我用历史数据做出来很漂亮,拿到现实当中一跑就不行了。
一个很关键的原因是在大数据分析当中有一个误解,我非常反对在中国使用大数据,却忽略中国经济发展的实际规律。不理解中国的经济发展背后的规律,单凭所谓“大数据分析”就得出好结果,是不太可能的。