一家名叫 SourceFed 的獨立媒體的一則報告在中美互聯網上都炸鍋了。
它的中心思想是:通過搜索一系列關于希拉里的負面新聞,發現谷歌的自動提示竟然沒有包括一些明明應該被廣為搜索的詞匯組合,比方說,當你搜索 hillary clinton criminal 這個攻擊希拉里的常見詞匯組合的時候,看到的不是 crime reform,就是 crisis,總之是一些比較中性的詞匯。通過 google trend 這類反映網民搜索趨勢的工具很容易查到,搜索希拉里 criminal 的人明明遠比 crime reform 為多,所以這充分說明,谷歌在作弊。
結論是:谷歌在操縱輿論,偏向希拉里。你可以在這里看到比較完整的指控:
現實版《紙牌屋》?谷歌被指屏蔽對希拉里不利信息
這個結論收到普遍歡迎并不奇怪。很多人不喜歡希拉里,或者不喜歡谷歌,或者對它們并無成見,只是喜歡陰謀論。但也有很多人,覺得自己一貫持平公允,看了這篇文章也不禁開始懷疑。文章看起來有理有據,總得有個解釋吧?
其實解釋起來再容易不過了。首先,大多數網民搜索希拉里的時候根本就不會打全名,特別是要搜索負面信息的網民。如果你只搜索 hillary,你其實是能看到 criminal 這類負面訊息的:
那么為什么在搜索 Hillary Clinton 全名的時候沒有這些結果呢?因為谷歌的政策是盡量不在全名后提示負面詞匯,以免自動提示這個功能被利用成為在網絡上攻擊他人名譽的工具。這個政策是對所有人一視同仁的。比如川普,盡人皆知,川普的一個著名丑聞是涉嫌強奸自己的前妻。Donald Trump rape 或者 Donald Trump lawsuit 和 Hillary Clinton Criminal 一樣都是網民搜索的熱詞。但是在谷歌的自動提示里,也不會出現這個組合:
抓到了!原來谷歌在同時討好希拉里和川普,兩面押寶,真是用心險惡啊……
其實,即使沒有所有這些實驗,要看出原文的問題也不困難,這里實在是有太多邏輯上的漏洞了:
一、原文所依賴的基本假設是:谷歌的自動提示應當完全依賴于網民的搜索熱度。只要兩者有偏差,就說明谷歌在作弊??墒沁@假設并不成立,即使不熟悉技術的人,只要有基本的直覺就會懂得,自動提示這類功能在設計的時候當然不可能只考慮一個影響因素。這道理很簡單,稍加思索就會明白。
二、即使原文的基本假設成立,觀察到「希拉里的搜索結果有差異」也不能說明谷歌偏向希拉里,至少得說明「只有希拉里的搜索結果有差異」才行。原文甚至連這個基本功課都沒有做。
三、再假設,即使真的觀察到了只有希拉里的搜索結果有差異,是不是就能說明谷歌偏向希拉里?還是不行,任何智能算法都會有出錯的基本誤差,需要證明,希拉里的誤差是如此之大,以至于一定不可能是隨機因素造成的。這就需要至少做一點基本的數據統計和搜集,有多少常見的負面詞匯,這些負面詞匯應當以什么頻率出現,實際上的頻率是怎樣的,偏差的置信度是多少,諸如此類。只靠 criminal 或者 indictment 這一兩個孤證來作出結論,這在任何正式的研究項目里都是要被笑掉大牙的。這和說一個人某天出門路上比平時多花了十分鐘,所以一定是去從事不法勾當了,沒什么本質區別。
一家獨大的搜索引擎對社會公平的影響不是什么新鮮話題。歸根結底,人們依賴谷歌至深,而谷歌的算法又全然隱藏在黑箱之內。所以下面這個問題看起來既合情,也合理:我們難道沒有權利要求一家搜索引擎給我們一個「真實」的輿論場嗎?
沒有。因為世界上并不存在這樣一個天上掉下來的真實。
在搜索引擎出現之前,人們獲取信息的渠道是廣播、電視、報紙、小道消息……它們沒有一樣是不能被特定的人和權力所把持和影響的。事實上,在人類歷史上的大多數時期和大多數文化里,操控輿論甚至都未必是一個負面詞匯。輿論從來就是被人控制的。
搜索引擎在人類歷史上第一次讓算法替代人來進行信息的分揀和排序——搜索和過濾本來就是同一件事的兩種不同的稱呼。隨著算法越來越復雜,人工智能所占據的重要性越來越高,我們正在一步一步地讓信息流通擺脫人為因素的作用。
但我們并不能指望算法最終還原給我們一個客觀的真理世界。真理不該是這樣獲得的。獲得真理的根本途徑,是自己的思考和懷疑,聆聽和理解不同的聲音;是擯棄簡單粗暴的結論,理解和欣賞世界的復雜和多樣性;是掌握基本的統計學知識,了解如何看待數據的規律,懂得人類在原始時代進化出的本能直覺很可能并不一定適應當代社會;以及最根本的,是不要讓立場控制自己的思想。這不是算法的責任,這是你的責任。
如果你做不到這些,你當然會被操縱,但別讓谷歌背這個鍋了,這是你自己選的。