整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?
80% ? 60% ? 50% ?
根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構(gòu)成。
爬與反爬的斗爭(zhēng)從未間斷
惡意爬蟲占比數(shù)據(jù)與 2013 年和 2014 年相比有所下降,同時(shí)真人訪問的占比也有所提升,但這并不意味著惡意爬蟲日漸式微。一個(gè)原因是印度、印度尼西亞等高人口總數(shù)國家的互聯(lián)網(wǎng)新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注于爬蟲的質(zhì)量而不是數(shù)量,如今的惡意爬蟲具有高持續(xù)性和可變性。
爬與反爬的斗爭(zhēng)從未間斷。過去的初級(jí)爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結(jié)出可能被封的原因,通過不斷的測(cè)試和改善爬蟲程序,更新?lián)Q代后的高持續(xù)性惡意爬蟲通常具有以下特點(diǎn)中的某幾個(gè):
模仿真人行為
加載 Java 和外部資源
模擬 cookie 和 useragent
瀏覽器自動(dòng)化操作
變化的 IP 地址池
可能很多人認(rèn)為,惡意爬蟲只會(huì)威脅到少數(shù)以文本為核心價(jià)值的網(wǎng)站,其實(shí)這些能改變自己請(qǐng)求路徑和請(qǐng)求方式的偽裝者可能潛伏在任何一個(gè)網(wǎng)站的每一個(gè)角落,文本、圖片、價(jià)格、評(píng)論、接口、架構(gòu)等方方面面均有可能成為爬蟲的囊中物。
縱容爬蟲的危害你必須知道
從網(wǎng)站業(yè)務(wù)安全的角度,縱容這些偽裝者的危害有以下幾點(diǎn):
1. 核心文本被爬
網(wǎng)站的核心文本可能在幾小時(shí)甚至幾分鐘內(nèi)就被惡意爬蟲抓取并悄無聲息的復(fù)制到別的網(wǎng)站。核心內(nèi)容被復(fù)制會(huì)極大影響網(wǎng)站和網(wǎng)頁本身在搜索引擎上的排名,低排名會(huì)導(dǎo)致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。
在內(nèi)容為王、用戶粘性不高的今天,核心內(nèi)容很大程度上會(huì)影響網(wǎng)站在用戶心目中的價(jià)值。若網(wǎng)站以文本為商品作為盈利點(diǎn),那惡意爬蟲更是影響 KPI 的罪魁禍?zhǔn)住?/p>
關(guān)注網(wǎng)站:
文學(xué)博客、招聘網(wǎng)站、論壇網(wǎng)站、電商內(nèi)的評(píng)論
2. 商品價(jià)格被爬
價(jià)格爬蟲的成因有兩種,一是網(wǎng)站競(jìng)爭(zhēng)對(duì)手刻意爬取商品詳情和價(jià)格后進(jìn)行同類產(chǎn)品線和價(jià)格的研究。
比如某 APP 上線新的租車服務(wù)前,會(huì)爬取所有競(jìng)品 APP 中的車型詳情及定價(jià)策略,為新服務(wù)上線打下價(jià)格優(yōu)勢(shì)。
另一個(gè)案例來自某酒店網(wǎng)站,我們?cè)跀?shù)據(jù)分析平臺(tái) Warden 實(shí)踐中發(fā)現(xiàn),網(wǎng)站的客房詳情被爬蟲攻擊,機(jī)器訪問的特點(diǎn)非常明顯:
頁面被某幾個(gè) IP 超高頻訪問,單個(gè) IP每小時(shí)訪問量達(dá) 5000 以上
部分 IP 的訪問路徑極為單一,僅請(qǐng)求房?jī)r(jià)詳情頁面,無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡
訪問間隔極短,且每次均請(qǐng)求不同時(shí)間段不同地域不同編號(hào)的酒店客房信息
以上特點(diǎn)能完全排除真人訪問的可能,在 數(shù)據(jù)分析平臺(tái)中也觸發(fā)多個(gè)實(shí)時(shí)策略,讓我們可以協(xié)助用戶及時(shí)處理。
* IP 點(diǎn)擊詳情
**某一條點(diǎn)擊詳情的 request 和 response 信息
**點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警
這類爬蟲就是典型的價(jià)格爬蟲,如不進(jìn)行實(shí)時(shí)判斷和攔截,網(wǎng)站的定價(jià)信息可能在幾小時(shí)內(nèi)就被競(jìng)爭(zhēng)對(duì)手完全掌握。
第二個(gè)成因是羊毛黨們?cè)噲D搜尋低價(jià)商品信息或在營(yíng)銷大促前提前獲取情報(bào)尋找套利的可能。
比如某 P2P 行業(yè)客戶發(fā)現(xiàn)近幾個(gè)月理財(cái)轉(zhuǎn)讓專區(qū)的產(chǎn)品幾乎在放出 2 秒內(nèi)就被轉(zhuǎn)讓成功,而網(wǎng)站的活躍用戶并沒有大幅的增長(zhǎng),轉(zhuǎn)讓專區(qū)疑似被爬。
通過數(shù)據(jù)分析平臺(tái)能在流量中能看到該轉(zhuǎn)讓頁面正在遭受爬蟲的攻擊,攻擊者能在極短時(shí)間內(nèi)獲取轉(zhuǎn)讓產(chǎn)品的收益率并自動(dòng)篩選高收益率的產(chǎn)品,甚至能實(shí)現(xiàn)腳本自動(dòng)下單購買。
另一個(gè)案例來自某電商平臺(tái),某次聲勢(shì)浩大的營(yíng)銷活動(dòng)規(guī)定新注冊(cè)用戶綁卡后能獲得一次抽獎(jiǎng)機(jī)會(huì),由于抽獎(jiǎng)接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎(jiǎng)的可趁之機(jī),造成活動(dòng)幾乎全部的獎(jiǎng)品被羊毛黨薅去。
**網(wǎng)站營(yíng)銷頁面點(diǎn)擊量突增
**風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值
在事后復(fù)盤時(shí),我們?cè)跀?shù)據(jù)分析平臺(tái)中發(fā)現(xiàn)羊毛黨活動(dòng)前疑似派出爬蟲探路,活動(dòng)匯總頁面被超高頻訪問,雖然訪問量并不集中于某幾個(gè) IP ,但有訪問地域集中于某兩個(gè)城市、訪問路徑單一且訪問間隔有規(guī)律等特點(diǎn)。另外,通過風(fēng)險(xiǎn)情報(bào)系統(tǒng) Red.Q 的數(shù)據(jù),同樣提示這些訪問 IP 的高風(fēng)險(xiǎn)分值,活動(dòng)開始后羊毛黨的訪問也有類似的訪問規(guī)律。
羊毛黨的活動(dòng)特性是個(gè)大話題,在此先不展開,但從案例中能看到,價(jià)格爬蟲是羊毛黨們的先鋒探路工具,攻擊者們可以通過爬蟲獲得營(yíng)銷活動(dòng)的具體信息,同時(shí)能測(cè)試網(wǎng)站對(duì)高頻訪問或最大訪問量的限制,為之后的薅羊毛做鋪墊。
3. 注冊(cè)用戶被掃描
如果在網(wǎng)站的注冊(cè)頁面輸入一個(gè)已注冊(cè)過的號(hào)碼,通常會(huì)看到“該用戶已注冊(cè)”的提示,這一信息也會(huì)在請(qǐng)求的 response 中顯示,一些網(wǎng)站的短信接口也有類似邏輯,注冊(cè)用戶和非注冊(cè)用戶返回的字段和枚舉值會(huì)有不同。利用這一業(yè)務(wù)邏輯,惡意爬蟲通過各類社工庫拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。
這個(gè)數(shù)據(jù)有什么利用價(jià)值?除了很明顯的違法欺詐外,攻擊者可以將數(shù)據(jù)打包出售給競(jìng)爭(zhēng)對(duì)手或感興趣的數(shù)據(jù)營(yíng)銷公司,完善他們的精準(zhǔn)營(yíng)銷數(shù)據(jù)。
4. 其他危害
點(diǎn)擊欺詐:點(diǎn)擊欺詐會(huì)給網(wǎng)站造成實(shí)實(shí)在在的利益損失。投放廣告通常是為了觸達(dá)符合網(wǎng)站定位的潛在消費(fèi)者,爬蟲造成的點(diǎn)擊欺詐使得廣告的點(diǎn)擊率虛高,使得網(wǎng)站承擔(dān)了本不應(yīng)承擔(dān)的點(diǎn)擊費(fèi)用。從運(yùn)營(yíng)角度出發(fā),訪問量無原因的忽高忽高也不利于分析廣告投放效果。
網(wǎng)站帶寬負(fù)擔(dān):對(duì)于帶寬有限的中小型網(wǎng)站,爬蟲可能會(huì)降低網(wǎng)頁加載速度,影響真實(shí)用戶的訪問體驗(yàn)。
事前的甄別預(yù)防才是關(guān)鍵
惡意爬蟲在給網(wǎng)站帶來可觀訪問量的同時(shí),也帶來了難以估量的威脅和損失。
從實(shí)際案例中我們可以看到,惡意爬蟲已經(jīng)承擔(dān)了整個(gè)攻擊環(huán)節(jié)先鋒者的重任,所以在分析網(wǎng)站的業(yè)務(wù)安全風(fēng)險(xiǎn)時(shí),我們可以更多的關(guān)注流量和用戶行為的異常點(diǎn),盡可能的在惡意行為剛發(fā)生時(shí)就及時(shí)甄別并做出合理的判斷和攔截,必要時(shí),宜采用專業(yè)的風(fēng)險(xiǎn)情報(bào)系統(tǒng)和數(shù)據(jù)分析平臺(tái)進(jìn)行系統(tǒng)的部署。對(duì)于企業(yè)來說,事前預(yù)防遠(yuǎn)比事后補(bǔ)救重要。