大数据让所有人的日常都无所遁形

 

一般谈到大数据只谈商机和操控。其实,巨量数据正透露出人类以为四下无人时,我们是什么样子,我们想的、说的、做的...





一般谈到大数据只谈商机和操控。其实,巨量数据正透露出人类以为四下无人时,我们是什么样子,我们想的、说的、做的,其实都不一样

这个传统问卷调查问不出的真相,来自大数据中,人们最真实、最不设防的心声。当我们以为每天只是过着自己的小日子,每一个行为,最后都汇集到数据里,成为大数据里的一部分。



图/取自rudebaguette.com

文/克里斯汀.鲁德

在脸书新增按赞功能的同一年,麻省理工学院的学生开发出了他们的同志雷达软件。这套算法很能推断男性的性向,但其实道理也很明显:大家都猜得到,男同志就是比较容易有男同志的朋友。所以,这项同志雷达的创新之作,就是用宏观层面的数据,来做一些我们早就自己会私下做的事情。在这之后,各种预测软件的能力已经迅速提高;随着有愈来愈多数据可用,这种程序只会变得更快、更强大。到2012年,英国某团队已经发现,只要从一个人按赞的资料,就能在以下主题有相对的猜测准确率:

某人是否是……

男同志或异性恋 88%

女同志或异性恋 75%

白人或非裔美国人 95%

男或女 93%

民主党或共和党 85%

吸毒者 65%

在21岁之前父母便已离异的孩子 60%

再次强调,这里并没有看任何近况更新、评论、分享,或是任何用户自己打的字,完全就只是看按赞的情况而已。等到你发现,居然有人只要从鼠标点点点这种事,就能知道你爸妈在吵架,就知道科学已经到了一个前无古人的境界了。甚至,一个人按赞的模式还能拿来预测智商:这个模型能够精准预测某人的标准智商测验得分,而且一个问题都不用问。

而且,这一切的根据不过就是脸书三年间取得的用户数据,而这些用户在之前几十年,都是活在没有脸书的情境之下。如果有人是从小就玩脸书,情况又可能会是如何?这就是纵贯性数据的黑暗面(否则平常我是很爱纵贯性资料的)。雇主、学校和军方早就在运用着像是迈尔斯-布里格斯(Myers-Briggs)和史丹佛-比奈(Stanford-Binet)之类的测验,你就是坐下来、尽力表现,然后他们就依结果将你分类。在大多数情况下,你能够选择是否要加入。然而现在逐渐变成,你不过就是过着自己的生活,就等于是在参加这些测验了。而且,整个结果就大喇喇地摆在那里,任何人都能阅读判断。在面试之前,看到某个人的Klout分数是51分之类,这是一回事;但居然能知道他的智商,这又是另一回事了。

如果雇主开始运用各种算法,推断你有多聪明、或是你是否在用药,你唯一的选择,就是要设法能够操纵这套系统,或者借用上一章的话,也就是「管理你的品牌」。而要打败机器,你就得像是台机器,但这也代表已经输给机器了。而且,前提还是你得先猜测到自己该如何表现。你绝对想不到,在这个研究里,和智商最相关的就是会对「薯圈圈」(curly fries)按赞,这谁可能倒推得出来啊。

然而,虽然脸书对你知之甚详,仍然比较像是个「工作上的朋友」:虽然相处的时间很长,但还是有个明确的界线。脸书知道的就是你在脸书上的数据。但还有很多其他情况,对你会有更深入的了解。像是如果你有一台iPhone,苹果就会知道你的通讯簿、行事历、照片、简讯、文字、你听了什么音乐、去了什么地方,而且因为手机有一个小陀螺仪,苹果连你走了几步都一清二楚。没在用iPhone吗?把「苹果」换成「谷歌」、「三星」、「威讯电信」(Verizon),结果也一模一样。你戴Nike的运动手环FuelBand吗?Nike连你睡得好不好都知道。你买了Xbox One吗?微软知道你的心跳率。 你用信用卡吗?只要你在零售店买了东西,你的个人标识信息(PII)就会将统一商品代码(UPC)连结到在客户关系管理(CRM)软件里你的客户ID,而这套软件就开始计算你下一个可能想买的东西是什么。

这只是整个企业信息现况的一瞥,想要完整叙述,得花上许多页才写得完。而至于政府的情况,由于政府只有透露部分,因为我们也就只知道片段。但我们确实知道的是,英国上下总共有590万部监视器,等于每11个英国人就有1部。而在曼哈顿,光是在14街以南,就有4,176部。至于在城市道路以外的部分,则由卫星和无人飞机来补全。虽然我们不知道这些监视器究竟看了些什么,但应该可以肯定的是:只要政府对你有兴趣,你一定难逃法眼。除此之外,正如维基解密的爱德华.史诺登(Edward Snowden)所透露,很多政府无法从监视器上看到的东西,还是能好整以暇地从国安局内部网络终端机(NSANet)的屏幕上轻松取得,而这个地点是个机密。



书名:《我们是谁?大数据下的人类行为观察》

作者:克里斯汀.鲁德 译者:林俊宏
出版社:马可孛罗
出版日期:2016年5月7日



正因为有太多事情发生,而公众又知道得太少,一般人对数据的理解,必然是与真实状况有极大差距。我不得不说,光是因为放下手边的工作来写这本书,我敢肯定自己就已经落伍了。在许多方面,「分析」已经超越了信息本身,成为真正的关键。目前得到最多媒体关注、也是最遭人讨厌的数据收集者,就是网络浏览器里的cookie,还有那些盗窃信用卡号的黑客。然而,这种人拿到的其实也只是你生命的一小部分,而且他们还得先费尽千辛万苦才行。不论他们的JavaScript写得多狡猾,基本上他们还是那种默片里的二流小坏蛋,留着小胡子、戴着高帽子的那一种。而如果要打个比较现代的比方:他们就像是《王牌大贱谍》系列里那个白白胖胖的邪恶博士(Dr.Evil),根本整个世界都是他的人质,但他居然只勒索个一.百.万美元,而真正能赚到几十亿美元的幕后头目,则是像Acxiom公司这样的资料公司。这些企业数据营销业者,能够取得银行和刷卡记录、零售购买记录,以及像是纳税记录之类的政府档案,他们对于人类行为的了解,可说是远远超越了任何在网站上找模式的学者。同时,各种国安机制所带来的种种资源和专业知识,则会让一般企业等级的数据探勘(data-mining)软件像采地雷小游戏一样可笑。

只要有心想跟踪,其实大家都会留下一些意想不到的信息面包屑。像是本书到目前就已经提过许多例子。即使如此,还有许许多多我们没谈到的追踪方式。例如,不管是高端的单反相机、或甚至只是你的iPhone,所有数字相机拍摄的照片都会附加一个小小的「Exif」文件,里面除了记录拍摄时间,还有其他各种琐碎数据,例如光圈、快门速度,常常还有拍摄时的经纬度。有了Exif档,就能让像是iPhoto这些程序轻轻松松将照片依场合(Moments/时刻)排序,也能在地图上用小小的大头针图标显示你去过哪里。然而,Exif会泄露的可不只是如此。以OkCupid的个人档案照片为例,愈好看的照片,就愈有可能是很久很久以前拍的。换句话说,使用者找到一张「好看的照片」之后,常常就再也不换。我们之所以知道这种事,也是因为Exif能告诉我们照片的拍摄时间。像这样的附加数据其实很常见,像是你每次打开哪个最爱的应用程序,GPS坐标就已经在一旁待命。几乎你加载的每个网页,页边都藏着几十个只有1个像素的图像(也就只是一个透明的点),在载入「真正的」网页时,记录你的造访;这些像素并不知道你在做什么,只知道你造访的时间、地点。但光是这样,就已经能让背后的公司对于你整个人的基本数据有个满准确的猜测。

如果有人就是不想分享这些数据,该怎么办?会不会有些人,就是宁愿自己去买东西、自己开心过日子?像我自己就很重隐私,有部分也是因为这样,老实说,我不太迷任何社群媒体,也从来不会把女儿的照片放上网络。我是在2011年初开始用Instagram,当时这家公司还不大,而且我主要就是为了那些滤镜效果。我当时还以为这就像是摄影软件Hipstamatic,没什么社群功能(我知道,这让我听起来完全像个老头)。等我太太发现她那老古板的先生在做什么之后,她告诉我可以把账户与其他人的账户连结,而我也照做了,因为不过也就是点个按钮嘛!但等到我觉得这不只是我和我自己的照片之后,就忽然觉得Instagram失去了所有的吸引力。

会像我这样闭俗的人并不多。虽然人人都说担心,但大多数用户对于隐私其实没那么在意。每次脸书又更新服务条款、把触手往我们的数据探得更深,民众会怒个一天,但隔天还是继续上脸书。就像是如果去戳一下蜂巢,发怒的蜜蜂一涌而出,但发现找不到人叮之后,就会乖乖再回巢里。因为科技就是会这样不断步步进逼,而人类则是不断退缩,让现在的软件都深具侵略性。像是有些应用程序管的是减肥、有的管心跳率,甚至还有「帮我的打扮打分数」的应用程序,把自己的打扮穿着上传网络,让大家为你提出时尚建议。女性也用各种应用程序来预测和管理自己的月经周期,珍娜.沃瑟姆就写道:「市场充斥此类软件,我认识的几乎每个女人都用。」只要让应用程序知道妳的月经何时开始,它就能帮忙计算危险期,好让妳懂得避开、或是把握时机。当然,光是自己告诉它数据,听起来不太像是具有侵入性,但也有另一家新创公司,号称只要检查浏览历史记录,就能推断女性的月经周期。任何这些与月经相关的应用程序(只要背后有个够格的数据科学家),当然也就会知道使用者是否怀孕、过度运动、变老,或是有了没有安全措施的性行为(因为一旦月经迟到,人总是会急忙提高检查频率)。

然而,就算有一些(甚至是不少)人并不在意隐私问题,我还是不希望有任何人会因为这本书而使身份曝光。前面已经提过,这里的分析都经过匿名、只做整体呈现,而且我处理原始数据时也很小心,数据中绝无任何个人标识信息(PII)。而讨论到用户所发表的文字时(包括个人自介、推特、近况更新、按赞等等),使用的都是公开的内容。至于用到用户个别记录的时候,则是会将用户ID加密。而且在任何分析中,数据范围都只列出必要的变项,避免能够回推到任何个人。



《Who Owns the Future?》书影。

当然,我从来就没想过要将资料回推到个人,而是要将数据链路到所有人整体。这正是我在数据里看到的价值,也就是以隐私换取而来的价值:让我们能够从中学习。微软研究院的信息科学家贾伦.拉尼尔(Jaron Lanier)曾着有《谁拥有未来?》(Who Owns the Future?),他最近在《科学人》(Scientific American)杂志写道:「有极大量关于我们私人生活的信息,正在储存、分析以及使用,希望未来能展现实际用途。」我认为他讲到「极大量」绝对没错,但最后一句却有问题。任何东西,不都是「希望未来能展现实际用途」吗?研究科学这件事,最重要的就是为了探索。铁矿石原本也就是石头,直到有人开始尝试。面包上的霉菌在几千年来都只会让人生病,直到亚历山大.弗莱明(Alexander Fleming)发现也能做成盘尼西林。

目前,资料科学已经取得许多重大研究结果,不只是能够描述、更能够改变人们的生活方式。我在前面已经提过了谷歌流感趋势,自从2008年推出之后,现在已经在超过25个国家上线、追踪疫情。虽然这项工具还不完美,但至少是个开端,各种数据结合之后,现在已经能够用来预防疾病、而不只是减轻疾病危害而已。正如《纽约时报》去年的报导:「微软、史丹佛和哥伦比亚大学的科学家运用谷歌、微软和雅虎搜索引擎的搜寻查询数据,已经首次能够领先美国食品药物管理局的警示系统,找出处方药物不为人知的副作用」。这些科学家发现,帕罗西汀(paroxetine)和普伐他汀(pravastatin)会造成患者血糖升高。在这里,牺牲一点生活上的隐私,换得的就是活得多一点健康。

●本文摘自马可孛罗出版《我们是谁?大数据下的人类行为观察》

作者简介:克里斯汀.鲁德 Christian Rudder

克里斯汀.鲁德是交友网站OkCupid的共同创办人暨总裁,也是人气部落格OkTrends的作者。1998年毕业于哈佛大学数学系,曾担任SparkNotes创意总监,上过国家广播公司(NBC)的《日线》(Dateline)及美国国家公共广播电台(NPR)的《面面俱到》(All Things Considere)等节目,作品也得到《纽约时报》、《纽约客》等等媒体热烈讨论。目前他与妻女住在布鲁克林。


    关注 讀書吧


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册