拉里·佩奇和塞吉·布林于1998年創(chuàng)建了搜索引擎巨頭谷歌公司,他們是大數(shù)據(jù)的先驅(qū),甚至是一件事情。谷歌的算法多年來發(fā)生了巨大變化,但大數(shù)據(jù)一直發(fā)揮著關(guān)鍵作用。如今,谷歌公司正在使用大數(shù)據(jù)來應(yīng)對(duì)日益增長(zhǎng)的網(wǎng)絡(luò)垃圾郵件的威脅。
谷歌大數(shù)據(jù)應(yīng)用的演變
在20世紀(jì)末期,大多數(shù)搜索引擎通過關(guān)鍵字密度和付費(fèi)支持來確定其排名。搜索引擎結(jié)果的質(zhì)量很差。Larry Page和Sergey Brin在1998年發(fā)明了pagerank算法,為用戶提供了更高質(zhì)量的搜索結(jié)果。對(duì)于搜索引擎廣告優(yōu)化,有一篇非常精辟的文章闡述了大數(shù)據(jù)在谷歌搜索算法中的作用。雖然其發(fā)布已經(jīng)有幾年的時(shí)間,但其結(jié)果至今仍然很適用。
新的pagerank算法評(píng)估了來自其他網(wǎng)站的超級(jí)鏈接,以確定客戶排名。新的算法在互聯(lián)網(wǎng)上抓取可索引頁面,這需要當(dāng)時(shí)最先進(jìn)的大數(shù)據(jù)工具。
新模式是完全依賴于關(guān)鍵字密度的搜索引擎的巨大改進(jìn),這有助于谷歌成為世界上最受歡迎的搜索引擎。但是,它創(chuàng)建了一個(gè)新的問題- 垃圾鏈接。
被稱為“黑帽SEO”的特定群體的垃圾郵件發(fā)送者抓住了新的變化。使用以前的搜索引擎,他們提高排名的策略是將他們的網(wǎng)頁填充到他們想要定位的關(guān)鍵字。當(dāng)他們開始嘗試在谷歌中排名時(shí),他們將通過互聯(lián)網(wǎng)從許多不同的網(wǎng)頁生成垃圾鏈接。他們使用基于Hadoop的工具來提取數(shù)億個(gè)網(wǎng)站上的數(shù)據(jù),并使用它們幾乎實(shí)時(shí)地分配網(wǎng)站排名。
谷歌公司網(wǎng)站垃圾郵件小組負(fù)責(zé)人Matt Cutts已經(jīng)承諾會(huì)找到新的打擊垃圾郵件的方法。他表示,谷歌公司會(huì)懲罰那些因銷售鏈接而違反其他內(nèi)容指南的網(wǎng)站。他們還更新了他們的算法,以識(shí)別具有很多非自然鏈接結(jié)構(gòu)的網(wǎng)站。這些網(wǎng)站經(jīng)常受到懲罰,以阻止垃圾郵件。
Cutts概述了他們用來打擊垃圾郵件的算法。
“谷歌公司對(duì)其工程師在收到新的垃圾郵件數(shù)據(jù)時(shí),能夠快速推出應(yīng)對(duì)新的垃圾郵件數(shù)據(jù)方法表示贊賞,這種方法可以在幾分鐘內(nèi)識(shí)別創(chuàng)建新的垃圾郵件。這說明谷歌做了什么?想想最近對(duì)鏈接網(wǎng)絡(luò)的打擊。谷歌公司可以快速發(fā)現(xiàn)并識(shí)別垃圾郵件,至于Penguin的更新,他們可以在全球范圍內(nèi)迅速推出。谷歌公司實(shí)施下一個(gè)打擊垃圾郵件的方法就說明了一切。”
大多數(shù)大數(shù)據(jù)系統(tǒng)需要服務(wù)器從許多來源中吸收數(shù)據(jù)。谷歌也不例外。他們從自己的搜索引擎和用戶報(bào)告中聚合網(wǎng)絡(luò)垃圾數(shù)據(jù)。Matt Cutts曾經(jīng)表示,很多關(guān)于網(wǎng)絡(luò)垃圾郵件的數(shù)據(jù)來自用戶的報(bào)告,他們呼吁更多的人提交。
“我們有幾種方法來使用這些數(shù)據(jù)。我們當(dāng)前的算法檢測(cè)到上面的付費(fèi)鏈接很好,但是這些外部報(bào)告是一個(gè)很好的方法來測(cè)量(然后改進(jìn))現(xiàn)有的算法在獨(dú)立數(shù)據(jù)上的精確度和召回率。接下來,這些報(bào)告有助于為未來的算法建立數(shù)據(jù)集。因此,這些數(shù)據(jù)有助于我們建立新一代的算法來提高質(zhì)量。它還允許我們研究新的工具和技術(shù),以改進(jìn)我們?nèi)绾螜z測(cè)付費(fèi)鏈接。最后,我們可以調(diào)查,并對(duì)我們收到的許多報(bào)告采取直接行動(dòng)。”Cutts寫道。
搜索引擎優(yōu)化(SEO)經(jīng)銷商表示,這正在改變搜索引擎優(yōu)化的未來。企業(yè)必須明白,谷歌的算法游戲會(huì)更加困難,這意味著他們必須尋找白帽優(yōu)化策略。
新的大數(shù)據(jù)解決方案將幫助谷歌消除更多的網(wǎng)絡(luò)垃圾郵件
針對(duì)垃圾郵件鏈接是Matt Cutts及其同事在谷歌公司面臨的最大挑戰(zhàn)之一。盡管網(wǎng)絡(luò)垃圾郵件越來越普遍,但近年來他們已經(jīng)取得了重大進(jìn)展,因?yàn)樗麄兪褂昧艘恍┦澜缟献罴舛说拇髷?shù)據(jù)工具。
由于新的基于Hadoop的算法可以幫助他們識(shí)別網(wǎng)絡(luò)垃圾郵件并相應(yīng)地對(duì)網(wǎng)站進(jìn)行懲罰,因此這種實(shí)施過程將更容易。