百度使用數據分析對2014高考作文題目預測這件事,值得再寫篇文章。這是一次相當成功的預測,據有人分析,預測“命中了全國18卷中12卷作文方向”。其實在我看來還不止如此,甚至可以說全中。不過這些都不重要,甚至高考也不重要。重要的是,大數據的這種玩法,會給世界帶來什么改變。
百度高考預測可以勝任高三考生報考決策指南的角色,它可以分析出全國大學和專業哪些熱門、哪些好考
錘子和釘子
中國高考作文的出題方法有個固定的套路:給你講一段小故事,然后讓你根據這個故事,想想自己受到什么啟發,寫篇文章。換句話說你的作文重點根本不是這個故事,故事只是你要寫的主題的一個素材。
同一個素材,各人思考角度不同,可以對應不同的主題。但更重要的是,不同的素材可以對應同樣的主題。
比如全國卷的一個題目是“不要給野生動物喂食,否則它會喪失自己的覓食能力”。出題者的意圖顯然不是讓人寫一篇關于野生動物喂養的科普文章。
一個角度是把自己想象成野生動物,主題是年輕人應該自己闖蕩,不能依賴前人經驗的灌輸。這不就是百度預測“生命的多彩”中的“奮斗”、“自由”和“青春”嗎?而使用同樣的主題,只要把文章稍加修改,完全還可以對付上海市的作文題:“你可以選擇穿越沙漠的道路和方式,所以你是自由的;你必須穿越這片沙漠,所以你又是不自由的。”
另一個角度則是把自己想象成面對野生動物的人,那么主題就是要尊重自然,保護環境。這不就是百度預測“發展的困惑”中的“自然”、“環境”和“尊敬”嗎?同樣的主題下把文章稍加修改又可以對付遼寧省的作文題:“可惜漫天繁星沒有了,滄海桑田轉眼之間啊!當年那些祖先山洞邊點燃篝火,看月亮初升天漢燦爛,他們欣賞的也許才是美景。”
現在我們的關鍵問題來了。到底是主題多呢,還是素材多?答案當然是素材多。素材怎么編都可以,但全體高中生都能想明白和說明白的道理就那么幾個 — 具體說來,據百度數據分析發現,只有六個方面而已。
只要一個人熟讀這六個方面各種可能主題的文章,掌握其寫作套路,不管高考出什么素材都能應對自如。
這就正如有句諺語說“如果你手里有一把錘子,你看什么東西都是釘子”。這句諺語本來是貶義的,意思是告誡人們不要把什么東西都往自己掌握的有限理論上套。比如近年來人們學會了進化心理學之后,就不管看到什么社會現象都想用進化心理學解釋,以至于我現在一聽進化心理學就渾身起雞皮疙瘩。
可是如果把這個錘子精神用在準備考試上,那是最好不過了 — 只不過你需要掌握的不是一把,而是六把錘子 — 有了這六把錘子就可以對付幾乎所有的高考釘子。其實錘子精神還可以用在領導講話上,任何事情都必須“高舉中國特色社會主義偉大旗幟,以鄧小平理論、“三個代表”重要思想為指導,深入貫徹落實科學發展觀……”這方面目前一共有三把常用錘子,它們總是同時出現。
那么百度發現這些錘子用的是什么技術呢?
主題模型
給你一篇文章,你怎么能看出來這篇文章是說什么的呢?具體說來,你怎么能讓機器知道這篇文章是說什么的呢?這個思想叫做“主題模型(topic modeling)”。
百度作文預測使用的主題模型技術叫做“隱含狄利克雷分布(Latent Dirichlet allocation,LDA)”。這是一個2003年才被提出的新技術,它的發明人之一正是剛剛加入百度,負責“百度大腦”項目的吳恩達。
LDA的基本思想非常簡單。計算機認為文章只不過是一些詞匯的集合。而每個主題,也只是一些關鍵詞的集合。計算機沒必要“理解”每個主題或者每個詞的意思,甚至根本不用管這些詞出現的先后順序。
我們人為地設定一些主題,并且在數據分析的幫助下給每個主題設定好關鍵詞。比如“狗”的主題下的關鍵詞可以包括“骨頭”、“汪星人”、“忠誠”、“朋友”等等,如果是最近的研究恐怕還要加上“廣西玉林”。這些關鍵詞的設定沒必要非常嚴格,到底哪個詞更重要可以交給機器去發現。
這樣我們就有了一個主題的集合,每個主題又都是一大堆關鍵詞的集合。同樣一個詞可以在多個主題中出現,但是在不同主題下出現的概率是不同的。
計算機要做的僅僅是使用一定的數學方法對根據每篇文章中的詞匯進行分析。一篇文章拿過來,你要做的就是把事先設定的所有主題一個一個的過一遍,計算這篇文章中的詞匯對應每個主題的可能性是多少。計算結果,就是這篇文章說的是每個主題的概率大小。一篇文章也許可以有超過一個主題,這不是問題。關鍵在于,計算機可以判斷一篇文章最有可能說的是什么主題,第二可能說的是什么主題……這就相當于計算機已經“讀懂”了這篇文章。
百度只要把海量的作文都用這種方法分析一遍,就得到了各種不同主題的出現總概率。更進一步,再結合年度風云搜索信息和當年的熱點新聞信息,就可以判斷現在最流行的作文主題是什么了。
LDA有很多應用。只要把“文章”改成“圖像”,把“主題”改成“物體”,它就可以用來分析一張圖片中都有什么物體,并用于給圖像分類。它還可以用來分析音樂的樂句,再結合每首歌的受喜愛程度,就可以用于歌曲推薦。我猜主題模型的方法還可以用于分析新聞報道、電影劇本、小說和游戲情節,這樣機器就能比任何文化批評家更早意識到現在流行什么。
如果機器如此厲害,人又當如何呢?
未來
設想幾年之后,所有考生都知道了百度能預測作文題。這些考生將會熟練掌握百度指出的任何主題。這樣一來,他們的高考作文成績將會非常接近 — 而這是出題者所不愿意看到的,因為高考的作用不是為了證明學生學得好,而是為了選拔,選拔要求必須有比分差距。
出題者怎么辦?他們必須打破俗套,發明全新主題!從這個意義上講數據分析帶來了社會進步。
但這有一個問題。數據分析會迅速發現這個新主題,并且促使它以比以往快得多的速度流行開來。等到所有考生都掌握了新的主題,這個新主題就又沒用了。
所以數據分析的真正作用是能讓好東西迅速流傳開來……然后迅速消亡。這里說的當然不只是高考作文,更重要的是電影劇情之類。
華爾街的金融公司使用各種數學模型進行股票交易。這些模型的特點是一開始如果只有你在用,你也許可以非常賺錢,可是一旦別人也開始用同樣的模型,那么市場就會在這方面變得越來越有效率,以至于這個模型的回報率就越來越低。于是你就只能再去發明一個新模型,一個更復雜的模型。直到這個模型也變得不好使。
結果華爾街就永遠需要新模型,而且越來越復雜,越來越不容易賺錢。這是一場軍備競賽。
主題也是如此。一個好使的主題會因為有太多人使用而變得不再好使,人們被迫發明新主題,但新主題也將會變得不好使。
這都是互聯網和數據分析帶來的。整個過程的節奏可能會越來越快。