人工智能加码企业服务,开数科技帮助企业挖掘深度数据价值

黄志磊 亿欧 2017-02-17 09:35:51

商业数据分析有很多种,以日志数据为代表的机器数据是互联网公司最常见数据之一,国际上,提供日志分析业务的Splunk公司也已实现几百亿人民币市值。作为企业方数据资产之一,日志等机器数据承载着企业中诸多过程记录信息,基于这些数据,更多价值点值得企业方与数据分析公司合作进行深度挖掘,以便增进营收、减少成本并优化效率。 

人工智能

致力于非结构化数据分析的开数科技(OPEN01)利用“日志分析+NLP(Natural Language Processing,自然语言处理)”,实现实时企业大数据分析,为企业提供全面且完善的数据分析服务。其技术合伙人Samuel Lee博士作为麻省理工大学计算科学与人工智能实验室(MIT-CSAIL)科学家,在大数据与人工智能方面有着深刻技术背景,曾主持研发了BioModels量化模型全球数据标准与系统,并被记载入欧盟ISBE方案架构书;商业合伙人熊梓锴博士则是拥有深厚商业数据分析从业经历的战略运营管理专家,曾在著名咨询公司罗兰贝格(Roland Berger,国际知名管理咨询公司)从事战略咨询、世界五百强企业Bayer医药负责战略管理与销售效能管理、并曾在凯博(Copal Partners,全球化金融分析和行业研究公司)担任过高级分析工作,在创立开数科技之前,熊博士还是精准医疗公司Genetron Health泛生子创始团队成员。

谈起开数科技创立契机,熊博士表示:过往咨询和战略从业经历,使其有机会在多个行业领域,接触到企业内部最真实的数据分析需求。这其中有超过80%数据是以非结构化的形式存在,这些数据结构复杂多样、数据关联性较差。在企业实际商业决策过程中,原始数据结构并不适合直接展开分析,在结构层面就对数据分析造成困难,更无法从多个维度联系数据并产生商业价值。 

早在十年前,熊博士就曾与Samuel博士在剑桥结识。由于专业关系,二人曾多次讨论商业与数据分析结合可能性,以及如何最终实现“让计算机读懂数据”这一目标。彼时二人发现,数据分析有两个难点尚未解决:首先是企业对数据分析需求还未充分产生,行业普遍还处于信息化的初级阶段;其次是计算能力和算法发展仍不足,在当时还缺乏完备机器学习算法能让计算机拥有对大规模数据阅读能力和自我提升。 

也正是从那时起,二人就开始在技术和商业需求方面进行探索,最终在2016年创办成立开数科技,寓意“打开数字,挖掘并展示数据深层价值”。在IT设备储存数据已常态化的今天,数据价值挖掘却越来越难,其中一个主要原因在于非结构化数据不能简单实现结构化。对此,熊博士向亿欧介绍,从技术难度来说,对日志等机器数据、以及文本等自然语言这些非结构化数据的分析是数据行业难点。首先一个原因在于数据量:非结构化数据占比非常巨大,而日志、文字等文本数据之间又存在强联系,大量数据和交叉维度分析对计算机处理能力提出了高要求;其次,数据分析结果的实时性也逐渐被企业重视,并对IT架构提出更高要求,传统BI(Business Intelligence,商业智能)分析软件在进行数据智能化分析时很难实现实时分析,大数据量使得系统计算压力骤增,而难以掌握实时分析结果,则直接影响企业决策的制定和实施。 

基于此,开数科技着眼于现有企业数据分析需求和物联网发展前景,开发了“朗录”(CAMPASS)平台软件,通过云端服务和软硬一体机形式,为中型和大型客户提供机器数据分析的企业服务。 

其中朗录的网络服务器模块通过挖掘服务器日志数据,为企业提供一下功能:

1)运营维护:通过日志分析判断诸如网站故障等原因,并提供防护建议,检查日常运营过程中可能出现的潜在风险与故障原因;

2)精准营销:在日志中不乏用户大量行为记录,企业可以获得精准用户画像,为营销提供数据支撑;

3)合规审计:日志作为服务器最本源的机器数据,被认为是最佳的“信息取证”来源,有助于了解企业目前的规范性是否达标,并作为审计跟踪的有力支撑。 

基于云端SaaS服务,企业用户可以随时通过互联网获取数据分析结果。更重要的是,作为大数据分析产品,朗录实现了实时数据可视化查看,通过二维重构,企业用户可实时查看地理、时间等多维度下数据分析结果,方便企业及时做出经营调整,真正实现对现实业务驱动与改善。  

而在人工智能方面,开数科技则是通过NLP技术及机器学习算法,实现强文本挖掘和知识网络搭建。上述技术带来的革新意义在于:NLP可以让计算机直接读懂自然语言数据,结合机器学习算法分析,可以让数据处理更为高效、产出更有价值的分析结果。以用户访问为例,区域性用户访问可以反映产品投放集中度,而用户在社交网站、商业网站的互动也能集中反映用户对产品的取向性。传统做法是对特征数据进行定义,当特征数据出现后即呈现对应结果;事实上,自然语言复杂程度远高于定义所能提供的维度,加之数据量巨大,仅靠人工列举无法完全获得可靠结果,更难以形成知识网络。 

传统的数据分析产品专注于展示实现数据的统计结果,一方面由于数据孤岛的存在,难以展开多维数据分析;另一方面从效率考虑,没有良好的算法,即便是当下先进的弹性计算资源也很难承受大数据运算压力。NLP技术、机器学习算法和先进IT架构的引入,可以很好的解决问题并真正释放数据的价值。 

凭借NLP和机器学习算法、成熟的机器数据处理和分析技术,开数科技打造了具有情感分析引擎、人群画像分析、产品口碑分析、热议统计分析、用户行为分析、品牌传播分析的大数据智能平台。通过了解网站所处数据特异性,基于行业、企业数据环境,针对性分析客户关联数据,包括微博、企业博客、公开文本等,最终实现数据强关联,获得更具价值的分析结果。 

对于市场前景,熊博士向亿欧分析:中国企业对海量数据的分析需求可以推至2008年电商行业爆发开始,当时中国市场涌现大量电商企业,互联网进一步发展和丰富,随着交易和网站信息井喷,海量数据出现并产生价值。“原有人口红利、市场红利使得早期电商企业获得快速成长,然而在后移动互联网时代,简单的跑马圈地机会越来越少,企业更多情况下需要精耕细作以提升效率。”熊梓锴博士认为,电商数据需求只是互联网众多企业需求的冰山一角,出行、视频、企业服务等领域也都需要数据分析。未来,更多智能化、工业化改造中出现的智能工业设备、物联网设备进一步加深了机器数据挖掘需求,市场前景会更大。 

作为一家数据分析型企业,开数科技在战略和产品方面并不局限于日志分析,而是致力于打造面对企业的非结构化数据分析平台,该平台上会形成一系列服务于不同应用场景的数据产品。这些产品与市场上其他数据产品将共同开拓未来的大数据市场。

在客户服务方面,开数科技以“云端+部署”形式,满足不同层级企业客户需求。一方面,可以为KA级客户提供定制化企业服务,基于企业特点行业属性实现“软硬结合”服务;而中小企业则可以根据其提供的功能全面的云端SaaS服务,快速有效实现日常数据分析需求。 

回过头来聊创业,Samuel Lee博士和熊梓锴博士都拥有资深的国际一流研究背景,旨在用自身技术满足市场上尚未被满足的、快速成长的非结构化数据分析需要。在人工智能技术大爆发、创业公司林立的情况下,身处新一波创业浪潮中,科学技术水平仍然是大数据公司的核心竞争力与壁垒。

三、四十年前美国市场上就已出现科学家创业浪潮,“将知识转化为生产力”是当时大学与商业公司合作的主要诉求,传统硅谷公司中,科学家搭配商业人才是常有的创业路线。因此熊梓锴博士认为,科学家背景的知识型创业在中国也将成为一股潮流,市场上会涌现出越来越多技术驱动型创业团队。在产业升级浪潮中,开数科技希望凭借技术实力与行业见解,在产业升级机会下帮助到更多互联网企业以及传统企业,实现数据驱动业务增长的目标,让更多企业感受到数据分析带来的商业价值。


长按二维码关注我们