算法当道,社交媒体中"假新闻"的锅应由谁来背?

原标题:算法当道,社交媒体中"假新闻"的锅应由谁来背?

2016年美国大选结束之后,Facebook成为众矢之的,舆论认为推送算法在假新闻的传播问题上难辞其咎。“假新闻”一词更是更为当年的年度热词,成为人们热议的对象,吃瓜群众恍然惊觉,自己信以为真、热议传播的惊悚消息不过是有人精心炮制的弥天谎言。

那么在这个消息爆炸的时代,每日充斥社交媒体的诸多热点新闻中,有多少是基于事实的客观真相,又有多少是别有用心的舆论引导?“假新闻”的锅应该由谁来背?是千夫所指的媒体算法,还是热衷八卦的吃瓜群众?如何从纷纭杂沓的虚假信息中辨明真相?

来看看蒂姆·奥莱利在《未来地图》中如何为我们指明假新闻的应对之道。

1

算法时代的媒体

在2016年美国总统大选结束之后,外界批评声不断,Facebook也成了口诛笔伐的重点对象。舆论认为, Facebook的新闻推送算法在散播错误信息、扩大民众两极分化方面难辞其咎。

假消息号称,教皇方济各为唐纳德·特朗普背书,妄言迈克·彭斯曾称米歇尔·奥巴马是“有史以来最粗俗的第一夫人 ”,还谎称希拉里·克林顿将被起诉,这些不实传闻被转发了一百多万次。

而以上这些假消息,均是由一群马其顿少年为挣钱而编造的。而“FBI官员身亡被伪造成自杀,或与希拉里邮件门有关 ”——这个彻头彻尾的谎言被转发了 50万次。这则谣言的始作俑者是南加州一名男子,该男子为了证明传播虚假信息轻而易举,从 2013年开始散布假消息,最终竟创立了一家有 25名员工的公司,专职负责炮制谣言。

以讹传讹的不仅仅是 Facebook的用户。许多假新闻还通过邮件、推特、 YouTube、红迪网和 4chan等渠道流传。当谷歌用户开始输入查询关键词时,谷歌建议的下拉框也会显示这些伪新闻标题。

后真相时代的“过滤气泡”

但 Facebook成为众矢之的,或许是因为马克·扎克伯格一开始就对假新闻泛滥问题矢口否认。

在总统大选结束几天后举行的技术经济大会上,扎克伯格在台上接受采访时说,有人认为一些不实传闻左右了大选结果,“这种想法太疯狂 ”。他辩解说,那些假新闻只是网站内容的沧海一粟。

假新闻是八卦小报的雕虫小技,处于新闻业边缘,曾遭人不齿,但如今何以在塑造我们共同的未来中发挥了如此重大的作用?

至少有一点, 2016年的美国总统大选把政治活动家伊莱·帕里泽所称的“过滤气泡 ”体现得淋漓尽致。由点赞驱动的社交媒体算法为每个人定制更多他们感兴趣的信息,肯定他们的偏见,强化他们的信念,鼓励他们在网上结交与自己志同道合的人。

华尔街日报创建了一个令人大开眼界的网站,叫蓝色推送 /红色推送,该网站使用Facebook对用户政治立场的研究数据,并排比较两党派支持者收到的同一事件的不同推送新闻。推送给“极端自由主义 ”和“极端保守主义 ”读者的新闻差异之大,让人瞠目结舌。

我们生活在不同的世界里。或许我们只是生活在新的“后真相”世界中,在这个世界,煽动情绪比展示事实更有分量。

社交媒体影响巨大

媒体传播和媒体创造中的民主化,发挥了举足轻重的作用。

皮尤研究中心的调查显示, 66%的美国人通过社交媒体获取新闻,这其中又有 44%只通过 Facebook阅读新闻。许多内容来自于传统媒体,通过链接在社交媒体上分享。

也有许多是社交平台的原创,还有些来自于新兴的、为党派极度拥护者量身定做的网站,例如马其顿少年为牟利而建的网站,或是极右或极左政治组织为支持所在党派而建的网站。

更别说还有 ISIS这种组织,曾成功利用社交媒体招募恐怖主义分子。一位不愿透露姓名的美国政府官员告诉蒂姆·奥莱利:“这并非我们的首场网络战役,我们刚打过,且已输掉。”

2

从很多方面来看,虚假新闻甚嚣尘上,提醒我们,如果算法有误,如果数字灯神给出的指令设计有问题,就有可能引发灾难性后果。尽管 Facebook和谷歌在本书出版之时肯定已进行了多次迭代来解决假新闻的问题,但是这一问题仍值得深入研究。

平台声称“中立”

在否认假新闻造成极坏影响的一周后,马克·扎克伯格承认假新闻是个问题,并表示 Facebook正在着手解决。他建议的方法是赋予“社区”更多工具,标记出那些他们认为真实或虚假的消息。

扎克伯格希望把Facebook定位为一个中立平台,用户可以通过这个平台与他人建立联系。

Facebook相信,控制假新闻散布应该由用户负责,而不是平台。这种理念决定了 Facebook应对危机的方式。

扎克伯格写道:“我们已经启动了相关工作,让社区用户对恶作剧和假新闻加标记,当然我们能做的还有更多。我们已取得阶段性成绩,并将继续改进。”目前一切顺利。他继续主张让 Facebook用户承担起督查网站的工作。

关于防范假新闻这件事, Facebook和谷歌等平台的内部讨论围绕的不只是如何谨慎处置才能避免误判。他们更担心自己的行为成为法律上的先例。

1998年施行的美国《千禧年数字版权法》,免除了互联网服务提供商和其他在线中介在版权侵犯中的法律责任,理由是:他们属于中立平台,用户可以把任何内容上传到平台上。平台更像是供用户贴宣传单的一面墙,不像出版商那样必须事先甄选要出版的内容,以满足更高的法律标准。

这种“中立平台 ”的说法,是互联网服务存在的核心。若中立性缺失,那么,每当谷歌把用户发布的内容纳入搜索目录,它就要对用户的任何版权侵犯行为负责。同样,如果用户发布侵权内容到 Facebook、推特、YouTube或者 WordPress博客上,这些公司也将担负法律责任。

类似的法律规定,可以延伸到适用于用户发布的其他类型的内容。公司为用户提供的是平台服务,而非内容。没有哪家在线服务公司希望打破这层保护。

批评人士对这种辩护异常愤怒。英国作家卡罗尔·卡德瓦拉德就是其中一位,她对谷歌建议功能极为不满,因为当她输入“犹太人是……”的时候,系统自动补全的是“犹太人是恶魔 ”这样的句子;

当她点击搜索,她发现第一条搜索结果的标题是:“犹太人遭憎恨的十大原因 ”。来自新纳粹网站 Stormfront的一个网页排在第 3位,解释为什么犹太人是恶魔的内容出现在第 5、第 6、第 7和第 10条搜索结果;

当她搜索“是否有大屠……”谷歌为她自动补全的查询是“是否有大屠杀这件事 ”,然后她被带到一长串否认大屠杀的网站,置顶的仍然是Stormfront的网页。

她给出的解决方案是:立即停止显示这些网页的链接。“在谷歌的商业模式背后是这样一套说法:魔法般的算法挥动着它的魔杖,释放出神奇的效果,完全不受任何人的干预,”她在英国卫报的专栏评论中措辞严厉地批评道,“谷歌竭力避免被看成是媒体公司、内容提供商、新闻资讯媒介,因为那意味着它应该和其他媒体一样接受共守的规则。但是谷歌就是媒体。”

但是,卡德瓦拉德忽视了谷歌运作的规模,庞大的规模从根本上决定了解决问题的必要方式。

平台的庞大规模

谷歌、Facebook、推特和其他类似的公司必须被视为新鲜事物,不属于旧版图的范畴。新事物有不同的运行规则,对内容的投入并非取决于某个人的好恶,而是出于必要性。

谷歌每次生成的搜索结果背后,都是海量的工作,需要对万维网上每一个网页进行检索排序——根据谷歌前任搜索副总裁阿密特·辛格尔所说,包括来自 2500亿个独立域名的 30万亿个网页。谷歌每天要用这些数据来响应 50亿次的搜索。

许多搜索关键词是常见的,但是至少有上千万的搜索是一些相当不常见的词语组合。据谷歌所说,卡德瓦拉德抱怨的“大屠杀”搜索,每天仅有 300次的查询。在每天 50亿次的查询中,这个词的搜索仅占日搜索量的 0.000006%,即几百万分之一。

Facebook的体量也同样庞大。

2013年的社交网络数据显示,每天有将近 50亿篇内容在 Facebook发布,目前的数字肯定远比这大得多,因为网站的活跃用户已从2013年的 7亿增长到如今的10亿。有人认为,谷歌和 Facebook只要招聘一些编辑、事实核证员或者使用外部媒体机构,就能轻松打击假新闻、仇恨言论或者其他令人反感的搜索结果,把它们在搜索中逐个删除或者降级。

这种想法表明:人们对这个问题的规模或性质一无所知。这就像是嘉年华游乐场中打地鼠的游戏,但是网上有几十亿只地鼠,而仅有几百个锤子。

我们需要打破常规观念,不要认为人类的角色就是掌握死亡开关的最终决策者。

Facebook的问题不同于谷歌。谷歌评估的内容和提供的链接,都来自上千亿个外部网页,但 Facebook的内容均由平台用户发布。

许多内容有外部网站的链接,其他则不然。即使有来自外部网站的内容,它也往往被重混成利于传播的形式,也即模因——很多时候是从原文语境中抽离出来的有代表性的图片或视频,它们可能是某个重要时刻,或是某句经典语录。这类内容以分享为目的,设计上重视的是影响力,而不是深入的对话或理解。

由于缺乏上下文,谷歌所依赖的许多标记。例如万维网的链接架构, Facebook都没法用。

虽然某些技巧 Facebook也可以使用,但是它处理内容的基础结构和商业流程不同于谷歌,这也是 Facebook想动员社区力量解决问题的原因之一。

假新闻的迅速扩散

推广假新闻的人往往有强烈的动机让事件发酵,他们使用程序化工具搜寻有影响力的人物,然后骗取他们的转发,以快速传播假新闻。

鉴于当今社会一个热门消息能够带来巨大流量,专业新闻机构也会使用自动化的“社交倾听工具 ”快速发掘热门话题,不对事实进行严格核证,便随即把一些消息在刊物上重新报道,这违背了主流媒体以往的报道原则。

一条虚假消息在被关注它的用户或事实核证员打上标记之前,可能已经被分享了几十万次,被上百万人阅读过。即使原消息已被删除,通常也不会妨碍假消息继续传播。

谷歌、 Facebook等公司有一条已落实的措施,是给有争议的消息加标签,或许这能有所帮助。因为标签会随消息一同传播,只不过标签必须在消息被广泛分享之前添加才有效。

但即使是这种方法也有局限性,因为没什么能阻挡一个有党派或经济利益的网站把同样的假消息乔装打扮一番,然后继续散布。出现这种情况,又如何去鉴别?你还是得回过头来向算法灯神求助,请它帮你打死地鼠。

此外,用户自己不仅仅难以判定消息真伪,甚至难以发现网站提供的帮助他们判定消息权威性的标识。斯坦福的一项研究表明,仅有25%的高中生知道 Facebook和推特上蓝色打钩标记表示官方认证账号。给假新闻做标记的效果,又能好到哪儿去呢?

我们终须认识到,搜索引擎和社交媒体平台是网络战争的沙场。

散播假新闻的既得利益者,不仅仅是政治参与者,这其中也涉及了巨大的经济利益,为此有人不择手段地操纵系统。因此,假新闻不是 Facebook的问题。

假新闻:互联网商业模式中的阴暗面

在网络犯罪中,这些手段不只是卑劣,而已经属于违法行为了。2016年 12月,一个俄罗斯僵尸网络被发现在制作有明确受众的视频,同时,该网络利用程序假扮成用户,制造点击观看视频的假象,从而骗取每日 300万到 500万美元的巨额广告收入。

换言之,这些人的武器不只是假新闻,他们还能派出假用户,在点击和点赞大战中充当子虚乌有的小卒。

当攻击者利用程序伪装成用户,其攻击速度之快、规模之广,是手无寸铁的人工监督者无能力应对的。这也从另一角度说明,需要使用算法对付假新闻和社交媒体其他种种欺诈现象,而非仅依靠用户判断或者传统新闻业的事实核证手段。这就像是对付垃圾邮件,要用过滤器。

问题在于,越来越多的网络攻击都实现了自动化,这些数字敌人搜寻网络漏洞的速度极快,人类根本来不及修补。

本文摘编自《未来地图 :

技术、商业和我们的选择》

作者:[美]蒂姆•奥莱利

出版社:电子工业出版社

5

真相是什么

我们一直在讲事实和谎言要经客观核证。其实还有一个更具挑战的问题,算法也能出其不意地助上一臂之力。

子虚乌有的信息也会像病毒一样在全球大脑中迅速扩散,塑造百万人的信念。我们所知道的、我们所接触到的东西,越来越多地由个性化算法决定,这类算法所做的,是从互联网海量的内容里面,挑选出它认为我们最有可能回应、最有兴趣参与、最易被触动情感的东西,而非简单地摆事实。

算法核查事实

对于新闻来说,人们的热情和基本面之间的距离也是可以被衡量的,且很多衡量指标可用算法来验证,计算机比人类的验证速度更快、角度更全。

当人们探讨新闻的真伪,讨论 Facebook、谷歌和推特这类平台网站去伪存真的责任之时,他们大概认为:判断真伪就是评估内容本身,这需要主观的判断,所以计算机无法辨别。但是和谷歌搜索一样,许多可用的标记独立于实际内容。使用这些标记时,我们必须谨记柯日布斯基的警告,分清地图与地图想要勾勒的实际疆域。

用算法核证事实,并不是替代人类判断。它会扩展我们的判断能力,如同推土机成了人类肌肉的延伸。算法使用的标记,与人工事实核证员拟用的标记相似。故事或图片有没有引用来源?即使没有引用来源,也不能就此断定故事造假,但是捏造的可能性提高了,因此需要进一步调查。

一般假新闻都没有消息来源。在追本溯源方面,计算机做得远比人类出色

  • 来源是否有权威性?

在多年的搜索质量评估工作中,谷歌使用了很多技术手段。网站成立了多久?被信誉度高的其他网站引用了多少次?

大多数人认为,FBI是美国国家犯罪数据的权威来源。如果消息引用了量化数据,那它在数学上是否说得通?

《商业内幕 》的文章把 FBI数据经过标准化处理,显示了每 10万人口中的犯罪率,因此天然更具可信度,而捏造的选民地图则促使我去寻找真相。话说回来,数学是计算机的强项。

  • 引用来源是否论证了观点呢?

如果故事和引用不沾边,则可能有造假的嫌疑。早在大选前, Facebook就进行了大规模更新,打击他们称之为点击诱饵的新闻标题。 Facebook研究了成千上万份实际内容与标题不符的帖子,总结出标题中用来吸引用户点击阅读的惯用词汇,然后研发了一个算法,用于识别标题和内容不匹配的文章,并对其给予降级。把文章与引用来源进行匹配,也是甄别真伪的一种类似做法。

  • 是否做到了同一个故事包括多家独立观点?

这是记者曾长期使用的技巧。曾几何时,寻找真相是新闻报道的核心。一个故事无论听上去多么有趣,只要消息来源单一,则绝不会报道出去。寻找多方确认的消息来源,也是计算机非常擅长的工作。

计算机不仅能找出多方表述,也能判定哪条来源率先发布,哪些是在重复别人,发布消息的网站或用户名已存在多久,它多久发表一次类似的文章,以及从哪个地理位置发表内容。

在线媒体的消费者不大可能以同样的方式进行自我培训,学会判断新闻真伪。特别是在读到的故事能给自己的偏见提供佐证时,很少有人会去搜索故事相同、但观点不合的其他文章。

因为算法能严格执行规则,所以它也善于关注人类会忽略的东西。

引用来源和来源链接使我们更易核实:一种说法是属于某人观点,还是他人解读,以及出自谁之口。这应该是所有报道的黄金标准。如果媒体都提供可靠的新闻来源链接,则没有引用链接的文章就自动被视为可疑。

当然,有的情况下记者依赖匿名来源。这让我们想起了水门事件中为记者提供重要资料的线人“深喉”。

当年,美国《华盛顿邮报 》记者伍德沃德和伯恩斯坦没有把“深喉”的爆料作为小道消息公之于众,而是花了几个月的时间跟踪调查,用确凿的证据证明深喉的说法属实。相比之下,如今的新闻行业操守已经节节败退。

合理怀疑

发现假新闻后,有几种可能的回应方式。

如果极为确定,则可以全面压制谣言的扩散。

但这种手段应慎用,因为它一不留神就会变成新闻审查。尽管我们对新闻审查持有极端偏见,但其实我们在其他在线应用程序中早已依赖于这种手段,电子邮件供应商就是通过它每天从几十亿的垃圾邮件中过滤出我们想看的邮件。

其实这些假新闻可以被打上标记。例如 Facebook( 或者在线邮件系统如 Gmail,因为许多假新闻也通过邮件传播)可以显示警告,类似于安全警告,提示:“该文章内容可能不实,你确定分享吗?”然后附上解释为什么文章可疑的链接,若有揭穿骗局的文章链接则更佳。

遗憾的是,Facebook并无意成为真相的仲裁者,哪怕新闻是来源于已知的假新闻网站。这意味着他们的工作效果没有达到应有的水平。

调整 Facebook现有的自动提供“相关新闻 ”的功能,或许可以克服确认偏误,同时又不至于彻底封锁新闻。若各种算法发现某条新闻可能存在偏见,可立刻将之与权威网站的不同解读或是源头网站的内容并排呈现。

虽无法迫使读者去查询来源,但若文章被标记为可能虚假或误导,且同一事件存在其他观点,则读者可能会犹豫是否应该点击分享。但这一切必须赶在内容大肆传播之前实现。

此外,也可以降低嫌疑文章的重要性。在新闻推送中置后,或者减少推送频率。

谷歌在搜索结果排名中就采用了这样的做法。Facebook是否应该采用同样的方法,一直颇具争议。 Facebook现有的文章排序方法自成一体,他们优先推广能提高参与度的文章,而非最新文章,推送与我们已分享或点赞文章相关的新闻,甚至多次推送受欢迎的文章。

自从 Facebook不再完全按照时间顺序显示文章,他们就把自己置于用算法管理推送的位置。如今,他们需要在算法中增加来源验证的功能,以及其他“真相 ”指标。

算法不必找出绝对的真相,但必须提出合理的怀疑,如同人类的陪审团一样。如果惩罚措施只不过是停止推送该文章,那尤当如此。平台上言论自由,但平台不会特意推广某些内容。只是由于算法有瑕疵,才导致掺杂了党派因素的情感冲动较之其他因素在新闻推送中更占上风,假新闻由此乘虚而入。

谷歌和 Facebook不断地制定和测试新算法,不过,是对系统设计进行人为判断,而不是针对具体结果。

也有很多问题不是那么紧要的。当用户获得自己想要的内容,他们会很开心,广告商也会开心,皆大欢喜。用户进行搜索的目标是找到答案,然后继续过他们的日常生活;搜索引擎的使命是“给用户最佳搜索结果 ”,因此双方诉求一致。

不幸的是, Facebook是以用户“参与度 ”为重,这很可能会让 Facebook误入歧途。用户参与度高,网站浏览时间长,虽广告商喜闻乐见,但未必有益于用户或寻找真相的人。

算法设计的精髓不在于消除所有错误,而是让算法结果不被错误击倒。根本性问题不是Facebook应否管理新闻推送,而是如何管理。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
免费获取
今日搜狐热点
今日推荐