打开

车品觉:大数据时代,我们准备好了吗?

时讯

看看新闻Knews

2016-11-01 23:57

车品觉:中国计算机学会大数据专家委员会副主任、浙江大学管理学院客席教授。


大数据是一种全新的材料,不是另外一种高科技


大数据是一种全新的材料,它不是另外一种高科技,只要找到了合适的方式使用它,它在哪里都可以使用。如果把大数据当成是一种材料的话,你会发现,大数据带来的问题是全方位的。它不是哪一种具体的技术,让你能看到它的功能,让你有办法针对性地管理。所以一定要把它当做一种新材料,从本质上,从体系上来思考大数据。

大数据时代,最重要的是关联


如何应用大数据?首先要了解数据的生命周期。“布点”、“收集”、“存储”,这些是前端,之后需要对数据做“识别”、“关联”、“分析”。还有一个能把整个过程包起来的,就是“实时刷新”。这就是数据的生命周期,它是一个闭环。


大数据和以前的数据不一样。首先,“布点”就往往不是你自己布的,有些“布点”是别人布的,所以需要有一个对外部数据的认知。尽管自己的数据有时候已经足够大了,但还是要关注别人的布点,要把别人的数据“关联”在你自己的数据当中。这是和以前最不一样的。以前的数据是封闭的,大数据时代不一样了,一定需要跟外部的数据关联。


譬如反恐,一个人从新加坡来北京,他从新加坡上飞机开始,就已经跟各种数据关联了。事实上,关联的速度越快,用于计算的时间就越多。我听说美国在“9•11”后,用了三年的时间拿到了一种非常重要的技术,一种快速计算的技术。这种技术能从你站在海关那个地方拍照开始的五分钟内,计算出你是一个恐怖分子的概率有多大。为什么?因为它用五分钟时间把你的数据和恐怖分子的数据进行了关联和计算。这个技术本来在华尔街的交易中心用来实现一百毫秒的运算能力,有人买了这个技术给了美国政府。


从人脸识别到匹配全世界十几亿人数据,如果你需要三个小时来计算,那肯定就完蛋了。正确的做法是:从你进入海关的那一刻就开始计算,之后不管你是在空中还是在陆地上,计算机都在不断关联和计算你。所以说大数据时代,最重要的就是关联。

过去我们用数据去解决“发生了什么”这样的问题,但是从我们知道“发生了什么”到最终“如何解决”,中间是有很多的环节。随着数据技术的发展,中间环节需要人工判断的地方在逐渐减少。


譬如打车软件告诉你,从现在这个地方打车到你家需要45分钟,但是你因为急事必须30分钟之内回到家,怎么办?其实后来你发现,你可以先打车到某一个地铁站,在那个地铁站乘地铁,总共半个小时就到能到家了。这个问题就解决了。但此时你发现你已经必须关联第三方数据——不单单是出租车的,还需要地铁的。


过去数据很集中,我知道我有多少数据,问题很清楚,我能解决问题。过去的解决只是一种假设的解决,因为没有第三方数据,只是基于假定的第三方数据做决策。所以大数据的起点就是关联第三方数据。当第一方数据和第三方数据能够非常有机结合的时候,我们对数据的分析就会有一种全新的理解。

大数据应用涉及“快”、“准确”和“过去的经验”


事实上,人工智能、深度学习,这些都是二十年前就有的技术,但是二十年前没有大数据,没有可以关联的数据。所以大数据的故事从有了关联才真正开始。


这个过程中,人类在中间环节需要做判断的地方越来越少了,这不是减少人手这么简单,其实它是“两秒钟”的科技,让很多事情的决策提高了两秒钟。不要以为两秒钟很简单,一百毫秒跟两百毫秒在股票市场中是惊天的差异,人家拼就拼这一百毫秒。


☛ “快”,很多事情的胜负就是两秒钟甚至一百毫秒的事。


☛ “准确”,自动驾驶对路上的人脸识别,过去的准确率是90%,如果能提高到95%,很多功能就可以实现了,那就是一场革命。


☛ “过去的经验”,也就是可重复性,天天都有的数据,就是发生率非常高、重复率非常高的数据,这样的话,数据分析才有大用途。

越来越多小公司入场,大数据生态进入临界点


一个生态的形成意味着非常多的小公司能生存下来。中国(互联网领域)只有三大巨头肯定不叫生态。能叫生态,必然是这个地方有很多的物种,很多你想都没想过的东西在出现,蚂蚁、蜘蛛……这些都是正常的生态。如果一个生态很干净,只有一座大山,那不叫生态。对于大公司来讲,对于阿里,新生态并不是什么好事儿,因为有很多阿里的人出去创业,十几、二十几个人就组建成一家小公司。对于阿里来讲是件挺头疼的事情。但对于生态来讲,这是一件好事。


以前在阿里,有人、有钱、有数据,我出去见到很多小公司,没数据、没钱、没人,但我还是看到非常多的年轻人在创业,包括很多海归。我开始对这个生态产生信心。我们现在已经站在大数据带来的整个生态创新的临界点,这是大数据真正的意义所在。


有些政府部门没有想清楚,自己为什么要收集数据


如何治理整个生态是中国现在有一个比较有意思的课题。政府是绝对拥有数据资产最大的机构,但是今天,中国对数据资产的理解太浅,有点不够重视。
有些政府部门没有想清楚自己为什么要收集数据。政府部门对数据资产停留在想要有多少就有多少的阶段。这是小数据时代的思维:占有数据,控制数据。只要有好的策略,政府拿到的数据会越来越多。但是你拿的数据多了,对社会的责任也就多了。如果你拥有这么多数据,你又不去用,那干吗收集?但是如果你把这些数据分享出去,人家又会说泄露隐私。


而且政府的数据往往是一些商业领域的催化剂。事实上,根本用不着把数据分享出去,可以根据数据建立模型,别的公司既看不到数据,又能从数据里获益。这才是正确的做法。比如人民银行征信里面的数据,是不必要公开的,它只需要做一个模型跟其他模型匹配。

奥巴马是第一个把大数据推到美国国家最高战略层面的总统。奥巴马政府有自己的数据中心,有自己的政府CDO(首席数据官)。


我们国家的领导人同样在做这件事情,中国政府也把大数据跟“互联网+”推到国家战略层面。唯一不一样的是,美国做这个事情更加开放,中国比较封闭,但是两者的力度都非常大。现在有哪家公司现在不赌还想赢的?国家同样如此。 两个国家都很伟大:敢做。


其实奥巴马之前的两任总统就已经把美国图书馆里面的资料全数字化了,这些为奥巴马的大数据化做了铺垫。但是中国政府在此之前毫无铺垫,是凭空开始做这件事情的。中国和美国国情有所不同,那我们接着该怎样做?

今天的数据交易还停留在  “他要卖你要买”的状态


在中国,今天的数据交易有一点像淘宝,我有一堆数据,我跟你做交换或者卖给你。说实话,通常情况下我不敢用这些数据。


为什么?你今天给我一个数据,我不知道你的来源,也不知道数据会不会是脏的,我怎么敢用?每天早上八点钟之前数据一定要给到我,你能不能做到?如果不能做到,我怎么敢用?如果用得好,下一次的数据质量是否跟上次的一样?如果不一样,我怎么敢用?另外,如果有一天你突然不卖给我了,那我已经开展的业务怎么办?


如果这些都无法确定,我是真不敢用交易来的数据。但现在的数据交易,确实是都不能确定这些问题的。总体来说,今天的数据交易还停留在“这是一个沙发,他要卖你要买”这样的状态,还没有到刚才说的细节。


不过中国的事情很奇怪,有时候先忽悠,忽悠起来就会有很多人把他的资源加进来,结果这个事情最后也能搞成。这是很中国特色的,在美国是不敢想的,但是在中国有时候真的会发生。


中国的数据交易现在还很迷茫,做这件事的官员很着急,到现在还没有一个很清楚的案例能说明,数据交易是成功的。

数据拥有权的归属是个尖锐问题


尖锐在涉及数据拥有权的归属。这个问题业界讨论了很久,政府部门也比较关心。比如说,现在进了一个网站,这个网站说“你如果用我网站的服务,那么有关你的数据就归我所有”。你同意了,那么相当于你签了约,你使用网站或者应用的服务,网站或者应用就可以使用你的数据来改善它的设计。但问题在于,用户同意让你使用数据搞好用户体验,并没有同意你跟其他公司交换有关他的数据。


之前参加一个论坛,有个人问了数据拥有权归属的问题。旁边一位刚好在公司里做这件事情的人说,“现在来说这还不是很严重的问题”。我立马回应说:“谁说不严重?”从阿里离开之后,我就要说实话。切切实实来讲,作为一个公司你有这个权力吗?


其实大公司在这方面的问题更大。比如腾讯、阿里,事实上包含非常多公司在里面的公司,政府对这种公司的处理是不是应该一视同仁?我这个公司有一百个分公司,用户和任何一个公司签“可以使用数据作为服务改善”协议时,该协议是限定在这个分公司,而不是一整个集团!当一家公司已经大到分公司之间的数据传输也会让人恼火的时候,就不能把一家公司当一家公司看。


大公司在使用数据时应该有限制


大公司在使用数据时应该有一个限制,哪怕是公司内部的自我交换,也应该是有一个限制。从国家的立场和人民的利益来讲,这个问题是应该提出的。过大的权力或者是过大覆盖面的公司,它们对数据的使用和小公司完全不一样,不能一概而论。


在美国,这个问题已经在寻求解决方案了,不同级别的公司对数据的使用需要遵循具体的监管要求。政府已经开始对这种公司进行监管,这个监管看上去还是很简单的:就问你几句话,你们公司到底有没有合规。很多公司都有一个合规部门,是公司里面一个专门负责检查自己公司数据应用情况的部门,它会按照政府的规则去自我检查。 所以政府的监管很简单,我只找你公司的CTO(首席技术官),给你一张表填,你自己检查自己合规不合规,如果将来出了事,你等着罚。我不查你,你自查,但是一旦出了问题别怪我罚你。当然这要看企业的级别,看企业的影响级别。

现在我们的政府总是怕,害怕影响企业,担心监管会影响企业的运作。政府部门有这样的态度是挺好的,但是过于谨慎。怕不代表可以完全不做。需要给企业一个比较清晰的指引,不是等到出事了,政府才告诉你这不能搞那不能搞,然后十几个部门一起盯着。这是一下子天堂一下子地狱。这是政府要思考的。


最近在美国参加了一个大数据会议。会议用的概念不叫合规,叫企业责任,这应该说更前进了一步。大量的数据公司,要先定义你的责任。有些国家,譬如加拿大,已经开始考虑这件事了。


美国有一个很大的民间团体,由全美国大部分数据公司共同成立的一个民间机构。这个民间机构会定期组织讨论,定下规矩然后告知政府。一旦某一个企业不遵守,就会把它从团体中踢出去。目前,中国的协会都可能做不了这样的事,所以希望政府可以多做一点事。


一般投资项目,政府不要领投,要跟投


香港政府做过一件事情,好像叫一对一,就是如果一个项目你能让投资人投,那么政府也跟着投。投资人其实是有他的眼光,他们对企业的评估有自己的衡量,这是很专业的事情。 政府不要去做主投。如果政府要投资,一定不要做天使投资人,天使人就是在项目早期投资一百万以下的那种。政府应该是在项目有眉目的时候跟投,而不是在项目早期进入,否则政府是很难做好这个角色。


就大数据这个领域而言,政府的作用是催化,是鼓励,而不是投钱。连私人投资都不投的(一般投资)项目,政府居然投资了,那肯定是有问题的。

中国现在很需要有首席数据官


现在政府都急于把大数据往前推,但是很多时候都是想着立即解决问题,但其实,政府有什么样的数据,什么能开发什么不能开发,哪些数据开放之后对整个社会有帮助,哪些数据跟别的数据进行关联才有用,这些问题都是需要通盘考虑的。


在这样的基础上,中国现在很需要有CDO。美国每一个州都应有一个CDO(首席数据官),白宫已经有一位CDO。这个角色非常重要,对整个国家来说,系统处理各方面的数据显然要难得多。所以一个国家、每一个地方都应该有一个CDO,而且要尽快。


譬如上海,上海能不能有一个CDO,在上海市长之下做这个CDO,帮市长处理各部门之间的数据?


我在阿里时做的最后一件事情,就是建立阿里的公共数据,一定要一把手支持,要不然做不了。政府部门也是一样,在一把手支持下打通各部门的数据,把各部门数据变成公共产品给政府各部门使用,然后部分公开给企业用。这里面有一个麻烦的地方,每一个部门都有自己的数据,但都不想公开,所以这就是为什么要一把手支持。


如果上海设立一位CDO,他要做的事情,就是必须把数据聚起来,不要各个部门说有什么隐私问题,而是这个CDO的职责就是保护你的隐私的,所以你的数据要放到我这里。在阿里,公共数据的处理有一个中央部门去负责;在上海,数据的处理,也应该有市长批复,有CDO批复。隐私的问题,交给中央部门来负责。


政府数据门户网站上开放的数据,最好不是政府觉得应该开放的数据,而是企业觉得有用的数据,应该有商业逻辑在里面。每一个开发出来的东西其实必然是有一个面向需求的开发。


如果要开放一些数据,政府应该让谁去评定应不应该开放,用什么机制开放出来,这是CDO的首要责任。另外如果有人准备在上海做大数据方面的创业,到底政府应该怎么帮他们,这很重要。我觉得上海可能是最有能力做样板的地方,要全国做太难了。

人才的稀缺比数据稀缺更加恐怖


最近两三年中国的数据人才是不够的。最好的人才往往是做数据已经有五年经验的人,数据的经验积累还是需要的。所以现在有非常多的创业公司,没有足够的人才。人才的稀缺其实比数据稀缺更加恐怖,很多人以为数据稀缺是第一困难,其实人才是第一,数据第二,第三才是生态。


第一,人才,人才到中国,第一件事情是看有没有好学校,孩子怎么办?国际学校很重要,这意味着五年后是否还有可能回美国读书,五年后怎么与美国学校接轨?有些海外人才很喜欢中国,但是问他“子女要读书,你会把他送回美国念书还是在中国”,他就卡壳了。在杭州,阿里最头痛的就是,请那些数据科学家过来之后,他们一看幼儿园发现没有一家比较好的,国际学校也几乎没有,只有一家但是跟上海没办法比,就打退堂鼓了。在北京,人家一看雾霾就不想来了。配套设施对吸引世界人才很重要。


所以政府对大数据的支持,与其直接给公司投资,还不如做些这方面的工作,千万不要像以前那样直接给好处、给公司好处。


第二,最重要的是,对搞大数据、人工智能的人来讲,旁边那个人是不是高手很重要。人才都要在高手的环境生态里面。硅谷为什么会厉害,因为它要解决一个问题的话,旁边就有他需要的人。


这个事情可以学习新加坡。我在阿里时,新加坡的处长每两个星期都会来我办公室回访。新加坡给钱、给人、免税让我们过去。他们的官员真的是每家大公司去拜访,找机会让你在新加坡落地,哪怕是只有一个小办公室。新加坡做得很好,他们官员的积极性很高,他们希望自己可以成为亚太区的总部。

上海和香港最有机会成为全球数据特区


上海非常有机会。我正在大力帮香港政府,希望把香港变成国际性的数据中心,但我觉得上海也具备这样的实力。


现在每个国家都保护数据,数据是不能出国的,美国公司的数据不能出美国,俄罗斯公司的数据不能出俄罗斯,中国公司的数据不能出中国。但是作为国际企业怎么办?很简单,哪里法律允许就去那里。有没有一个特区可以让数据放进去,让全世界都放心把那个数据放在那里做交换和交叉?这有一点像一个安全港的意思。上海可不可以成为这样的一个特区。


现在要说服的不是中国政府,而是美国、欧洲,让它们相信可以把数据放进来。或者,跟“一带一路”联系起来,说服“一带一路”的国家,能把这些国家的数据放在上海或者香港,也是不错的。


本文仅代表专家个人观点


采访整理:李辉 上海市科学学研究所副研究员


(编辑:潘妮 陈佳雯)

相关推荐 更多精彩内容

暂无列表

APP 内打开
打开看看新闻参与讨论