這是一個(gè)信息爆炸的時(shí)代,因而信息過(guò)濾和基于大數(shù)據(jù)的個(gè)性化推送,便成了至關(guān)重要的事情。而這,也正是今日頭條可以從眾多新聞客戶端中脫穎而出的重要原因。
2012年8月,今日頭條上線,以其獨(dú)有的大數(shù)據(jù)分析和定制化推薦而迅速受到熱捧。從資訊客戶端變?yōu)閿?shù)據(jù)挖掘的推薦引擎,創(chuàng)業(yè)不足三年,這家公司的估值已經(jīng)達(dá)到5億美元,而這些都是今日頭條背后所蘊(yùn)藏的大數(shù)據(jù)算法的價(jià)值。
如何推測(cè)你的喜好?好算法不如大數(shù)據(jù)
當(dāng)你身在外地旅游時(shí),打開(kāi)今日頭條,你會(huì)突然發(fā)現(xiàn),它為你推送的消息里,多了幾條當(dāng)?shù)氐穆糜喂ヂ浴.?dāng)你晚上失眠睡不著時(shí),打開(kāi)APP最先看到的,多是情感相關(guān)的內(nèi)容。這些都是今日頭條用戶使用的場(chǎng)景之一,你也許會(huì)好奇,它是如何做到更懂你的呢?今日頭條的負(fù)責(zé)算法數(shù)據(jù)的技術(shù)副總裁楊震原給了我們答案。
“個(gè)性化推薦算法就是基于投票的方法,”楊震原說(shuō)到,今日頭條個(gè)性化推薦的核心理念其實(shí)就是投票。“實(shí)際上個(gè)性化推薦并不是機(jī)器給你推薦,而是人與人之間在互相推薦。”
他將個(gè)性化算法比作是數(shù)豆子的方法,每一個(gè)人拿一個(gè)豆子,喜歡哪一篇文章就把豆子給這篇文章,然后由機(jī)器去數(shù),最后得到結(jié)果。依照這種算法,同樣兩篇文章,當(dāng)前三個(gè)人都對(duì)第一篇文章做出“投票”時(shí),那么,給第四個(gè)人推送的必然就是第一篇文章了。
此外,人群可以基于年齡、性別、地域、職業(yè)等分類,而文章也可以通過(guò)關(guān)鍵詞、發(fā)布時(shí)間、所屬地區(qū)等分類,再結(jié)合用戶反饋的數(shù)據(jù),才有了“你關(guān)心的,才是頭條”。楊震原表示,今日頭條推薦的方法也是機(jī)器學(xué)習(xí)的算法,在移動(dòng)互聯(lián)網(wǎng)時(shí)代有很多豆子產(chǎn)生,當(dāng)你拿著手機(jī)每看一篇文章,你的每一次點(diǎn)擊和搜索,各種行為,都會(huì)被記錄下來(lái)產(chǎn)生數(shù)據(jù)。
如楊震原所說(shuō):
“More data beats better algorithms,大數(shù)據(jù)勝過(guò)好算法,大數(shù)據(jù)時(shí)代的到來(lái)才真正釋放了這些算法的價(jià)值和意義。”
今日頭條的下一個(gè)五年,機(jī)器才能抹平信息鴻溝
創(chuàng)業(yè)三年以來(lái),張一鳴的團(tuán)隊(duì),積累了2.2億用戶的使用習(xí)慣和數(shù)據(jù)。這些數(shù)據(jù)要怎么才能更好玩呢?于是,他們搞了一場(chǎng)有關(guān)“算數(shù)”的發(fā)布會(huì),第一次通過(guò)數(shù)據(jù),向外界展示了今日頭條的用戶是怎樣的一群人。
根據(jù)他們發(fā)布的數(shù)據(jù)報(bào)告顯示,男性用戶占到了65%的比例,而雖然女性用戶較少,但是她們的平均停留時(shí)長(zhǎng)在8分鐘,明顯高于男性的5.5分鐘。
“廣西的人最愛(ài)點(diǎn)贊,河北人最愛(ài)看段子,最關(guān)心時(shí)政的是山西人,最關(guān)注八卦的是天津。”
這都是今日頭條根據(jù)用戶習(xí)慣得出的數(shù)據(jù)。張一鳴解釋說(shuō),
“過(guò)去是依靠人總結(jié)知識(shí),現(xiàn)在可以通過(guò)系統(tǒng)、學(xué)習(xí)用戶的行為特征來(lái)儲(chǔ)存智慧。有很多人問(wèn)我,未來(lái)5年今日頭條會(huì)變成什么樣?其實(shí)大家看我研究的APP,大概能知道我在關(guān)注什么。”
張一鳴邊說(shuō)邊把自己手機(jī)里400多個(gè)APP展示給大家看。他自己總結(jié)了三個(gè)努力的方向:
一是讓更多種類信息,包括文字、圖片、短視頻如何在更多場(chǎng)景下給用戶更好的推薦。其次是能不能把握用戶越來(lái)越多的習(xí)慣和數(shù)據(jù),使基于相同興趣的用戶更好的進(jìn)行交流和互動(dòng)。第三是希望能夠連接更多O2O的服務(wù),讓今日頭條變?yōu)?ldquo;今日生活”。
那么在今日頭條背后做數(shù)據(jù)支持的算法和大數(shù)據(jù)呢?
張一鳴認(rèn)為,在下一個(gè)五年中,將有越來(lái)越多人的興趣、行為被投影到網(wǎng)絡(luò)世界,當(dāng)數(shù)據(jù)越來(lái)越多,機(jī)器就會(huì)越來(lái)越懂我們。在張一鳴看來(lái),大數(shù)據(jù)就網(wǎng)絡(luò)空間的“上帝”,在俯視觀察著所有人。
“雖然機(jī)器的智商未必高于見(jiàn)多識(shí)廣的人,但人的記憶量有限,處理的數(shù)據(jù)量也有限。機(jī)器卻可以不知疲倦,每時(shí)每刻都可以輸入海量數(shù)據(jù)。通過(guò)感知理解判斷之后形成機(jī)器的智慧,能夠大規(guī)模的抹平信息的鴻溝。”
上線不足三年,2.2億用戶,2000萬(wàn)日活。對(duì)于團(tuán)隊(duì)所取得的成績(jī),張一鳴并沒(méi)有太過(guò)沾沾自喜,畢竟今日頭條算法推送的背后還有著太多需要改進(jìn)和優(yōu)化的地方,產(chǎn)品也仍在遭到用戶不斷的吐槽。更重要的是,1月19日,搜狗剛剛推出了“微信頭條”,競(jìng)爭(zhēng)對(duì)手,正在緊隨其后。
最后,附數(shù)據(jù)圖兩張,小伙伴們請(qǐng)自行對(duì)號(hào)入座哦~