“数据挖掘算法助川普大选获胜”的真相终于揭开

川普团队意外赢得大选以来,一直有一种说法,声称川普胜利的关键在于其金主华尔街大佬Mercer支持的数据助选公司Cambriage Analytica(下简称CA)的神奇算法。据说,CA使用了某种先进的统计学数据挖掘方法,能够通过脸书对选民进行精准的广告投放。所以,是高科技帮助川普取得了胜利。

图:CA公司CEO Nix

作为一名有多年专业工作经验的统计学博士,我不怀疑CA在川普胜选中起到了作用。但我一直认为,川普胜在统计学方法先进的说法经不起推敲。因为统计方法再神奇,也不能离开数据无中生有。有意义的结论只有在拥有相当数量的原始数据时方才可能。结论越细致,所要求的数据量就越大。先进的统计方法只有和足够大量的数据结合才能展现出威力,否则就是巧妇难为无米之炊。而一旦有了海量数据,经常并不需要什么格外时髦的统计学工具,也很容易发现有关结论。

所以,如果CA的数据研究真的对川普胜利起到相当的作用,那不太可能是因为他们有了什么神奇的统计方法,而多半是因为他们拥有了别人没有的大量数据。问题只在于,这些数据是如何获得的?

今天美国纽约时报与英国卫报同时发表的两篇长篇调查报告初步揭示了真相:CA公司的数据,来自于对共计五千万美国脸书用户信息的非法盗取。这次数据盗取由川普团队和俄国政府勾结完成,而这一事件之所以能够发生、并直到今天才被揭露,则源于脸书公司对用户数据安全管理高度不负责任所造成的重大疏忽——以及事情发生后的竭力隐瞒。

根据纽约时报和卫报,为川普团队竞选服务的CA数据公司(“剑桥分析”)用于建模所使用的五千万脸书用户详细资料均属盗取。其中,又有三千万人的资料详细到可以与其他公共资料如选民登记表建立对应(例如包括用户的详细地址)。而在这五千万用户中,真正同意有关方面进行脸书数据搜集的仅有27万人,而且所同意的只是将数据用于“学术目的”。

图:支持CA公司的川普金主,华尔街大佬Mercer及其女。其女为CA公司董事会成员。

五千万(或三千万)是个极高的数字。在2016年大选中,总投票人数约为1.3亿人。川普获得的总票数其实比希拉里还少三百万,但只是因为在几个人口较多的关键州以极其微弱优势险胜才勉强上位。例如,川普在佛罗里达比希拉里多约10万票(或总票数1%),在宾夕法尼亚多5万票(或总票数0.7%),在威斯康星多2万票(或总票数0.8%),在密歇根多一万票(或总票数0.2%),可见差距之接近。完全有理由认为,如果川普团队没有拿到这批海量信息,大选的结果就会改写。

这些信息包括了几千万用户的日常。他们的住址、性别、种族、年龄、工作经历、教育背景、人际关系网络、平时参加何种活动、发表了什么帖子、阅读了什么帖子、对什么帖子点过赞(like)等等。

掌握了如此详细的资料,进行建模并有针对性的向用户发送信息影响其思想和投票行为就不再是难事,也不需要什么特别高深的模型。假如某位用户曾为题目是‘911是美国政府监守自盗’的帖子点过赞,那大可以投其所好,向其推送一点‘希拉里养性奴’的故事。他不仅自己会去阅读,还有很大可能四处转发。能够这样精准投放,自然事半功倍,省钱省力。

在只有27万人同意的情况下又如何做到搜集五千万人信息?这是因为脸书在保障用户信息安全管理方面存在巨大漏洞。

按照卫报和纽约时报的报道,这一数据盗取的具体做法是:先广泛发布广告,以“有偿心理学研究”为名,用少量金钱为奖励,诱导美国用户下载应用软件在亚马逊旗下网站“Mechanical Turk”和“Qualtrics”上参加问卷调查。在问卷调查末尾,再请求用户同意该软件查看其脸书资料。但这些用户不知道的是,他们点击“同意”之后,这一应用软件不但搜集了他们本人信息,还进一步顺藤摸瓜搜集了从他们脸书页面能看到的其所有脸书好友信息。而这些人的脸书好友则对其信息被搜集毫不知情。利用这种方法,27万名参与“问卷调查”的“种子用户”变成了特洛伊木马,导致了五千万用户信息泄露。

这种做法之所以能够得逞,来自于脸书本身的技术和管理漏洞。脸书仅仅规定,应用软件要抓取某位用户的脸书内容需要取得该用户本人的同意。但一旦获得同意,则有关软件立即可以看到该用户脸书页面上所有内容,而这些内容又包括了该用户所有好友的详细个人信息,以及他们在脸书上发帖,阅读,点赞的所有情况。看起来,脸书并未在知情同意条款上区分某位脸书用户自己发布的信息,和并非他本人发布,但是从其页面上能看到的他人所发布信息这二者的巨大不同。这一漏洞导致了海量用户信息在自己不知情的情况下泄露。

俄国政府参与这一事件可以说铁证如山。实际上,真正执行脸书数据抓取操作的是一位名叫Kogan的剑桥大学心理学系高级研究员。Kogan博士在剑桥的同事们所不知道的是,Kogan同时又是俄国彼得堡大学副教授,并从俄国政府领取项目经费,以研究“社交网络中的压力与心理健康”项目。CA公司后来用于大选的“心理学建模”方法,正是此人在剑桥大学所参与的课题组所发明。该课题组掌握有对facebook用户信息抓取并进行建模的技术。所以川普金主、华尔街大佬Mercer所支持CA公司一开始派人(所派之人正是后来对卫报爆料的Wylie)与这一课题组联系并试图建立合作关系。但该课题组负责人拒绝了这一要求。

图:俄国彼得堡大学副教授,英国剑桥大学高级研究员Kogan。

图:卫报爆料人Wylie

在此之后,了解有关技术的Kogan博士单独与CA接洽达成合作意向。Kogan成立了名为GSR的公司,共投入来自CA的八百万美元资金,以“学术研究”为名义开始挖掘脸书用户数据。

与俄国的联系还远远不止于此。卫报报道,在2014年7月,正在大肆挖掘脸书用户数据的CA公司开始了与俄国石油寡头公司Lukoil一系列看似莫名其妙的联络。Lukoil要求CA向他们介绍利用数据对选民进行“微观定位”的助选方法与石油业消费者的关系。并提出,有关信息会由该公司CEO本人过目。而该CEO正是与普京联系密切的Vagit Alekperov。

如果不了解Lukoil背景,就很难理解为何一家石油公司会如此热衷于美国选举,也很难理解美国大选的助选方法与石油业消费者有何相干。但实际上,这家公司正是普京用来对外国政局施加影响的工具之一。比如强烈亲俄的捷克总统一位顾问就被发现由该公司发放工资。

看看卫报拿到的CA应要求在2014年夏天发给Lukoil的一份报告就会恍然大悟。在这份报告中完全没有提及“石油业消费者”,而全部在描述从脸书抓取的有关数据特点、建模方法、以及最重要的——如何利用这批数据干扰选举。这份报告的第一页讲的就是CA公司在所参与的2007年尼日利亚大选中进行“谣言竞选”的经验——例如广泛散布“选举存在舞弊”的谣言。而报告最后一页,则正是关于“针对选民心理分类投放信息”的内容。

在这一系列事件中,脸书公司扮演了极不光彩的角色。

首先,他们很早就知道了这一大规模数据搜集行为。爆料人Wylie告诉卫报,Kogan的应用软件一开始下载海量用户数据,脸书的内部安全监控程序就已发现。但Kogan向脸书解释说这一切都是为了“学术用途”,脸书就没有再进行任何追究。

到2015年12月,卫报已经披露,有脸书用户的个人数据被用于支持德州参议员克鲁兹参加共和党总统候选人初选。即便如此,脸书也一直拖延到2016年8月(即大选前三个月)方才向早已离开CA公司的Wylie写信,要求他“删除数据”,仅此而已。之后并未做任何努力追查这批数据是否真的被删除,又曾经被用于何种目的。

正常人容易想到,哪怕脸书无力进行追查,也应该及时向公众和美国政府告知这一大规模数据泄露事件。公众一旦知情,总有人会反省自己在脸书上所看到的世界,是否为有人盗取了自己信息后、为某种特定目的所特意构造而成。

但可悲的是,直到脸书公司一直到笔者写作此文的时刻仍在否认问题的存在性和严重性。

纽约时报记者在调查过程中,既已多次向脸书提出问询。脸书则先是不承认数据泄露范围有如此之广,并对这批数据并未被销毁的说法进行质疑。只是在周五获悉纽约时报即将发表调查报告之后,才勉强在自己网站上发表声明承认有数据泄露并表示要采取行动。

读一下脸书声明内容,就会发现他们仍在玩弄话术以掩人耳目。脸书声称,Kogan使用软件抓取了27万用户信息经过用户同意。问题只是他时候违反规则,将数据给第三方用来竞选,而不是用于“学术研究”。按这个说法,数据泄露并不是脸书方面做错了什么,而是有人把以合法手段取得的数据又用于非法的目的。

但卫报和纽约时报所揭露的关键内容并非在于27万“种子用户”是否签了同意协定,而是:Kogan利用仅仅27万用户的同意,竟然获取到了五千万用户的详细信息,而之所以能够做到这点正是因为脸书在数据管理方面的巨大漏洞。对于这点,脸书的声明中丝毫没有提及,即没有承认,也没有否认,只是完全没有提及。你看不到“五千万”这个关键数字,以及对此的任何解释。

下图为美东时间2018/3/18凌晨00:46在脸书网站看到的有关声明内容截图

笔者还记得,在2016年大选时,认识的有几位美籍华人朋友之前是共和党,但却受不了川普,也没法勉强自己给希拉里投票,所以在自己珍贵的选票上写上了“扎克伯格”的大名。他们或许觉得,这是个幽默的行为艺术。再回头看看,却有些令人哭笑不得。

索引

【1】纽约时报报道https://mobile.nytimes.com/2018/03/17/us/politics/cambridge-analytica-trump-campaign.html

【2】卫报报道 https://www.theguardian.com/news/2018/mar/17/data-war-whistleblower-christopher-wylie-faceook-nix-bannon-trump

【3】脸书声明 https://newsroom.fb.com/news/2018/03/suspending-cambridge-analytica/