从谷歌流感趋势到大数据,我们正在经历什么?

星火启文易学 2020-02-17 15:39:59

这次武汉的疫情给了中国沉重的一击,对个体,对企业,对国家的打击都非常大。在沉痛之余,也不得不思考,如果下次再碰上疫情该怎么办?我们能不能做到及时预警,及时发现,将疫情扼杀在摇篮里呢?

其实,早在2008年,谷歌就推出了一款产品:谷歌流感趋势,简称GFT。这款产品是怎样预测流感疫情的?

简单地说,就是监测人们搜索的关键词,比如:流感、发热、胸闷、温度计等。如果在某一地区的某一时间段内,有大量关于这些关键词的搜索,那么就存在一种潜在的关联:这个地区很有可能存在对应的流感人群。GFT就依据这些数据展开跟踪分析,创建地区流感图表和流感地图,尽早提醒相关部门发布预警信息。

一开始,谷歌的这款产品预测的准确度很高,和美国疾病控制与预防中心的报告相差不多。不同的是,GFT能够在一天的时间里做出反应,甚至可以短至数个小时;而美国疾控中心的报告则要滞后两周左右。

两周时间,这简直是可以致命的,要知道流行病的传播可不是线性增长,如果爆发起来将很难控制。在当时,谷歌的这款产品可谓是轰动一时。

可是,就是这样一款产品,后来却失效了。

2013年2月13日,《自然》杂志发文指出,在最近(2012年12月)的一次流感爆发中GFT不起作用了,GFT的预测结果比美国疾控中心的报告要夸大了近一倍。

2014年3月,《科学》杂志对GFT的攻击则更为猛烈,几位学者做了深入调查,指出基于数据分析所得的结论存在“大数据分析中的陷阱”。

为什么会造成这种结果?

原来,GFT在刚开始的准确分析后,取得了一定的权威地位。当GFT提到某地有疫情,马上就会有媒体大肆报道,从而引发人们更多的关注。于是针对疫情关键词的搜索量也不断提高,这就更加影响到GFT的判定。于是,在媒体和人们搜索关键词这两种作用的推动下,GFT对疫情的判断完全偏离了实际,不断高估疫情的风险。

这种“预测失效”其实并不单单出现在GFT的失败案例中。就拿这次疫情来说,如果某位专家预测未来一个星期后将出现拐点,于是人们放松了对自己的要求:出门应酬,约见客户,或者只是聚在一起晒太阳。结果,这种放松对自我要求的做法正好给病毒的传播制造了机会,于是,我们会发现这个拐点迟迟不来。

再比如某个权威的气象学专家在2000年预测:到2050年全球的平均气温将会比现在提高2度。他依据人们的行为习惯,依据工业的发展,依据经济的景气程度等因素得出这一结论。并且,他有大数据来支撑,不只是凭经验和感觉来判断。

到2050年全球的平均气温真的会提高2度吗?不一定。因为人们针对这种预测会做出相应的应对措施,比如开发新能源汽车、制造更多的太阳能发电设备、制定政策减少森林的砍伐等等。真的到了2050年,情况可能会比专家的预测更为乐观。

这种基于人们的行为大数据而做出的预测,也容易忽略人们的行为变量,忽略每一个个体数据的具体意义。

GFT之所以失败,是因为没有排除掉干扰因素,对数据的算法还不够完善。

如果谷歌把媒体的报道也纳入考虑范围,把每一次媒体报道之后的搜索量加以分析,降低权重,那么结果可能会更加准确。当然,这只是一种假设,事实的情况会比这复杂得多,得结合多方面的因素来考虑。但是,我们不得不承认大数据也会不断完善,不断改进它的算法。

GFT虽然失败了,但这并不意味着基于大数据所做的预测和判断就没有任何实际意义。

就拿商业保险行业来说,它就是基于大数据的统计来进行盈利的。每个人要出的保费是多少?怎么定?他们早就心里有数,他们得出了人们的平均寿命、患病几率、还有碰上意外情况的几率等等。他们就根据这些数据来确定保费,确保自己能够实现盈利。甚至,在数据支撑的基础上,他们还可以适当降低保费来提高自己在同行之间的竞争力。

当下,越来越多的人注意到大数据的力量,开始利用大数据追踪疫情与人群接触史,查找同乘车次与航班;分析疫情情况,支撑疫情态势研判和防控部署。

也许,后续就会有像谷歌流感趋势这样基于大数据的产品来造福大众。它可能并不只是关注关键词搜索量,可能还包括各行各业的数据,比如医院和药店。只要这些数据和疫情产生关联,就可以经过筛选,比较,分析来进行预测和防范。毕竟,算法只会不断被完善和改进。

真正阻碍它发展的,可能不是技术问题,而是这里面的商机还没被发现,没有人愿意去做一件费力却不赚钱的事。所以,这样一件数据统计的工作得由相关卫生健康部门牵头,结合各行业的数据来进行分析。未来的发展不知如何,但这次的疫情正是一次警醒!

在这个大数据的时代,数据就是资源。

也有一些人对此表示担心,担心我们每个人的隐私将会受到侵犯。

如果,我们的数据被用来抵抗疫情,只要不涉及深层次的隐私,大多数人可能不会反对。如果这些数据被用作商业用途呢?

我们每天都在跟各类软件打交道:聊天、购物、理财、看新闻和短视频……每一次我们的点击和滑动都会成为数据的一部分。说起来可能像个笑话:各大平台可能比我们自己还要了解我们自己。

理财平台能够测出我们的理财性格,购物平台能够知晓我们的购物倾向,视频软件更能知道我们的喜好,不断推荐我们偏好的内容。根据这些数据,就能推算出你是一位家庭宝妈还是一位上班族,是一位书法爱好者还是摄影爱好者。

不仅如此,我们的脸部信息和指纹,我们留下的电话号码,我们的聊天记录等等,这些数据都能被很好地保护起来吗?

虽然现在的监管很严格,但是却无法保证这些信息不被泄露。

这样的事情其实一直在发生,那些无端打进来的未知电话就是一个很好的例子。他们能叫出你的名字,知道你有某些方面的意向,然后顺势给你推荐他们的产品。还有一些人的做法更加让人愤怒,他们会组织一个个精密的骗局,一步步诱骗无辜的人上钩。

在那些我们看不见的暗处,谁也不知道有人正在做着什么样的交易。

而我们不可避免地成为了数据的一部分,成为了产品的一部分。对许多人来说,可能连选择的余地都没有。

结语:大数据的发展就像一把双刃剑,既能用它来预测流感,也能变成某些人的商业筹码。是利还是弊,只看人们怎么看待和利用它。

0 阅读:23