精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:安全行業(yè)動(dòng)態(tài) → 正文

惡意爬蟲這樣窺探、爬取、威脅你的網(wǎng)站

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2016-12-20 10:42:05 本文摘自:互聯(lián)網(wǎng)早讀課

整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?

80% ? 60% ? 50% ?

根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構(gòu)成。

爬與反爬的斗爭(zhēng)從未間斷

惡意爬蟲占比數(shù)據(jù)與 2013 年和 2014 年相比有所下降,同時(shí)真人訪問的占比也有所提升,但這并不意味著惡意爬蟲日漸式微。一個(gè)原因是印度、印度尼西亞等高人口總數(shù)國家的互聯(lián)網(wǎng)新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注于爬蟲的質(zhì)量而不是數(shù)量,如今的惡意爬蟲具有高持續(xù)性和可變性。

爬與反爬的斗爭(zhēng)從未間斷。過去的初級(jí)爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結(jié)出可能被封的原因,通過不斷的測(cè)試和改善爬蟲程序,更新?lián)Q代后的高持續(xù)性惡意爬蟲通常具有以下特點(diǎn)中的某幾個(gè):

模仿真人行為

加載 Java 和外部資源

模擬 cookie 和 useragent

瀏覽器自動(dòng)化操作

變化的 IP 地址池

可能很多人認(rèn)為,惡意爬蟲只會(huì)威脅到少數(shù)以文本為核心價(jià)值的網(wǎng)站,其實(shí)這些能改變自己請(qǐng)求路徑和請(qǐng)求方式的偽裝者可能潛伏在任何一個(gè)網(wǎng)站的每一個(gè)角落,文本、圖片、價(jià)格、評(píng)論、接口、架構(gòu)等方方面面均有可能成為爬蟲的囊中物。

縱容爬蟲的危害你必須知道

從網(wǎng)站業(yè)務(wù)安全的角度,縱容這些偽裝者的危害有以下幾點(diǎn):

1. 核心文本被爬

網(wǎng)站的核心文本可能在幾小時(shí)甚至幾分鐘內(nèi)就被惡意爬蟲抓取并悄無聲息的復(fù)制到別的網(wǎng)站。核心內(nèi)容被復(fù)制會(huì)極大影響網(wǎng)站和網(wǎng)頁本身在搜索引擎上的排名,低排名會(huì)導(dǎo)致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。

在內(nèi)容為王、用戶粘性不高的今天,核心內(nèi)容很大程度上會(huì)影響網(wǎng)站在用戶心目中的價(jià)值。若網(wǎng)站以文本為商品作為盈利點(diǎn),那惡意爬蟲更是影響 KPI 的罪魁禍?zhǔn)住?/p>

關(guān)注網(wǎng)站:

文學(xué)博客、招聘網(wǎng)站、論壇網(wǎng)站、電商內(nèi)的評(píng)論

2. 商品價(jià)格被爬

價(jià)格爬蟲的成因有兩種,一是網(wǎng)站競(jìng)爭(zhēng)對(duì)手刻意爬取商品詳情和價(jià)格后進(jìn)行同類產(chǎn)品線和價(jià)格的研究。

比如某 APP 上線新的租車服務(wù)前,會(huì)爬取所有競(jìng)品 APP 中的車型詳情及定價(jià)策略,為新服務(wù)上線打下價(jià)格優(yōu)勢(shì)。

另一個(gè)案例來自某酒店網(wǎng)站,我們?cè)跀?shù)據(jù)分析平臺(tái) Warden 實(shí)踐中發(fā)現(xiàn),網(wǎng)站的客房詳情被爬蟲攻擊,機(jī)器訪問的特點(diǎn)非常明顯:

頁面被某幾個(gè) IP 超高頻訪問,單個(gè) IP每小時(shí)訪問量達(dá) 5000 以上

部分 IP 的訪問路徑極為單一,僅請(qǐng)求房?jī)r(jià)詳情頁面,無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡

訪問間隔極短,且每次均請(qǐng)求不同時(shí)間段不同地域不同編號(hào)的酒店客房信息

以上特點(diǎn)能完全排除真人訪問的可能,在 數(shù)據(jù)分析平臺(tái)中也觸發(fā)多個(gè)實(shí)時(shí)策略,讓我們可以協(xié)助用戶及時(shí)處理。

  * IP 點(diǎn)擊詳情

  **某一條點(diǎn)擊詳情的 request 和 response 信息

  **點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警

這類爬蟲就是典型的價(jià)格爬蟲,如不進(jìn)行實(shí)時(shí)判斷和攔截,網(wǎng)站的定價(jià)信息可能在幾小時(shí)內(nèi)就被競(jìng)爭(zhēng)對(duì)手完全掌握。

第二個(gè)成因是羊毛黨們?cè)噲D搜尋低價(jià)商品信息或在營(yíng)銷大促前提前獲取情報(bào)尋找套利的可能。

比如某 P2P 行業(yè)客戶發(fā)現(xiàn)近幾個(gè)月理財(cái)轉(zhuǎn)讓專區(qū)的產(chǎn)品幾乎在放出 2 秒內(nèi)就被轉(zhuǎn)讓成功,而網(wǎng)站的活躍用戶并沒有大幅的增長(zhǎng),轉(zhuǎn)讓專區(qū)疑似被爬。

通過數(shù)據(jù)分析平臺(tái)能在流量中能看到該轉(zhuǎn)讓頁面正在遭受爬蟲的攻擊,攻擊者能在極短時(shí)間內(nèi)獲取轉(zhuǎn)讓產(chǎn)品的收益率并自動(dòng)篩選高收益率的產(chǎn)品,甚至能實(shí)現(xiàn)腳本自動(dòng)下單購買。

另一個(gè)案例來自某電商平臺(tái),某次聲勢(shì)浩大的營(yíng)銷活動(dòng)規(guī)定新注冊(cè)用戶綁卡后能獲得一次抽獎(jiǎng)機(jī)會(huì),由于抽獎(jiǎng)接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎(jiǎng)的可趁之機(jī),造成活動(dòng)幾乎全部的獎(jiǎng)品被羊毛黨薅去。

  **網(wǎng)站營(yíng)銷頁面點(diǎn)擊量突增

**風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值

在事后復(fù)盤時(shí),我們?cè)跀?shù)據(jù)分析平臺(tái)中發(fā)現(xiàn)羊毛黨活動(dòng)前疑似派出爬蟲探路,活動(dòng)匯總頁面被超高頻訪問,雖然訪問量并不集中于某幾個(gè) IP ,但有訪問地域集中于某兩個(gè)城市、訪問路徑單一且訪問間隔有規(guī)律等特點(diǎn)。另外,通過風(fēng)險(xiǎn)情報(bào)系統(tǒng) Red.Q 的數(shù)據(jù),同樣提示這些訪問 IP 的高風(fēng)險(xiǎn)分值,活動(dòng)開始后羊毛黨的訪問也有類似的訪問規(guī)律。

羊毛黨的活動(dòng)特性是個(gè)大話題,在此先不展開,但從案例中能看到,價(jià)格爬蟲是羊毛黨們的先鋒探路工具,攻擊者們可以通過爬蟲獲得營(yíng)銷活動(dòng)的具體信息,同時(shí)能測(cè)試網(wǎng)站對(duì)高頻訪問或最大訪問量的限制,為之后的薅羊毛做鋪墊。

3. 注冊(cè)用戶被掃描

如果在網(wǎng)站的注冊(cè)頁面輸入一個(gè)已注冊(cè)過的號(hào)碼,通常會(huì)看到“該用戶已注冊(cè)”的提示,這一信息也會(huì)在請(qǐng)求的 response 中顯示,一些網(wǎng)站的短信接口也有類似邏輯,注冊(cè)用戶和非注冊(cè)用戶返回的字段和枚舉值會(huì)有不同。利用這一業(yè)務(wù)邏輯,惡意爬蟲通過各類社工庫拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。

這個(gè)數(shù)據(jù)有什么利用價(jià)值?除了很明顯的違法欺詐外,攻擊者可以將數(shù)據(jù)打包出售給競(jìng)爭(zhēng)對(duì)手或感興趣的數(shù)據(jù)營(yíng)銷公司,完善他們的精準(zhǔn)營(yíng)銷數(shù)據(jù)。

4. 其他危害

點(diǎn)擊欺詐:點(diǎn)擊欺詐會(huì)給網(wǎng)站造成實(shí)實(shí)在在的利益損失。投放廣告通常是為了觸達(dá)符合網(wǎng)站定位的潛在消費(fèi)者,爬蟲造成的點(diǎn)擊欺詐使得廣告的點(diǎn)擊率虛高,使得網(wǎng)站承擔(dān)了本不應(yīng)承擔(dān)的點(diǎn)擊費(fèi)用。從運(yùn)營(yíng)角度出發(fā),訪問量無原因的忽高忽高也不利于分析廣告投放效果。

網(wǎng)站帶寬負(fù)擔(dān):對(duì)于帶寬有限的中小型網(wǎng)站,爬蟲可能會(huì)降低網(wǎng)頁加載速度,影響真實(shí)用戶的訪問體驗(yàn)。

事前的甄別預(yù)防才是關(guān)鍵

惡意爬蟲在給網(wǎng)站帶來可觀訪問量的同時(shí),也帶來了難以估量的威脅和損失。

從實(shí)際案例中我們可以看到,惡意爬蟲已經(jīng)承擔(dān)了整個(gè)攻擊環(huán)節(jié)先鋒者的重任,所以在分析網(wǎng)站的業(yè)務(wù)安全風(fēng)險(xiǎn)時(shí),我們可以更多的關(guān)注流量和用戶行為的異常點(diǎn),盡可能的在惡意行為剛發(fā)生時(shí)就及時(shí)甄別并做出合理的判斷和攔截,必要時(shí),宜采用專業(yè)的風(fēng)險(xiǎn)情報(bào)系統(tǒng)和數(shù)據(jù)分析平臺(tái)進(jìn)行系統(tǒng)的部署。對(duì)于企業(yè)來說,事前預(yù)防遠(yuǎn)比事后補(bǔ)救重要。

關(guān)鍵字:爬蟲加載速度

本文摘自:互聯(lián)網(wǎng)早讀課

x 惡意爬蟲這樣窺探、爬取、威脅你的網(wǎng)站 掃一掃
分享本文到朋友圈
當(dāng)前位置:安全行業(yè)動(dòng)態(tài) → 正文

惡意爬蟲這樣窺探、爬取、威脅你的網(wǎng)站

責(zé)任編輯:editor004 |來源:企業(yè)網(wǎng)D1Net  2016-12-20 10:42:05 本文摘自:互聯(lián)網(wǎng)早讀課

整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?

80% ? 60% ? 50% ?

根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構(gòu)成。

爬與反爬的斗爭(zhēng)從未間斷

惡意爬蟲占比數(shù)據(jù)與 2013 年和 2014 年相比有所下降,同時(shí)真人訪問的占比也有所提升,但這并不意味著惡意爬蟲日漸式微。一個(gè)原因是印度、印度尼西亞等高人口總數(shù)國家的互聯(lián)網(wǎng)新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注于爬蟲的質(zhì)量而不是數(shù)量,如今的惡意爬蟲具有高持續(xù)性和可變性。

爬與反爬的斗爭(zhēng)從未間斷。過去的初級(jí)爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結(jié)出可能被封的原因,通過不斷的測(cè)試和改善爬蟲程序,更新?lián)Q代后的高持續(xù)性惡意爬蟲通常具有以下特點(diǎn)中的某幾個(gè):

模仿真人行為

加載 Java 和外部資源

模擬 cookie 和 useragent

瀏覽器自動(dòng)化操作

變化的 IP 地址池

可能很多人認(rèn)為,惡意爬蟲只會(huì)威脅到少數(shù)以文本為核心價(jià)值的網(wǎng)站,其實(shí)這些能改變自己請(qǐng)求路徑和請(qǐng)求方式的偽裝者可能潛伏在任何一個(gè)網(wǎng)站的每一個(gè)角落,文本、圖片、價(jià)格、評(píng)論、接口、架構(gòu)等方方面面均有可能成為爬蟲的囊中物。

縱容爬蟲的危害你必須知道

從網(wǎng)站業(yè)務(wù)安全的角度,縱容這些偽裝者的危害有以下幾點(diǎn):

1. 核心文本被爬

網(wǎng)站的核心文本可能在幾小時(shí)甚至幾分鐘內(nèi)就被惡意爬蟲抓取并悄無聲息的復(fù)制到別的網(wǎng)站。核心內(nèi)容被復(fù)制會(huì)極大影響網(wǎng)站和網(wǎng)頁本身在搜索引擎上的排名,低排名會(huì)導(dǎo)致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。

在內(nèi)容為王、用戶粘性不高的今天,核心內(nèi)容很大程度上會(huì)影響網(wǎng)站在用戶心目中的價(jià)值。若網(wǎng)站以文本為商品作為盈利點(diǎn),那惡意爬蟲更是影響 KPI 的罪魁禍?zhǔn)住?/p>

關(guān)注網(wǎng)站:

文學(xué)博客、招聘網(wǎng)站、論壇網(wǎng)站、電商內(nèi)的評(píng)論

2. 商品價(jià)格被爬

價(jià)格爬蟲的成因有兩種,一是網(wǎng)站競(jìng)爭(zhēng)對(duì)手刻意爬取商品詳情和價(jià)格后進(jìn)行同類產(chǎn)品線和價(jià)格的研究。

比如某 APP 上線新的租車服務(wù)前,會(huì)爬取所有競(jìng)品 APP 中的車型詳情及定價(jià)策略,為新服務(wù)上線打下價(jià)格優(yōu)勢(shì)。

另一個(gè)案例來自某酒店網(wǎng)站,我們?cè)跀?shù)據(jù)分析平臺(tái) Warden 實(shí)踐中發(fā)現(xiàn),網(wǎng)站的客房詳情被爬蟲攻擊,機(jī)器訪問的特點(diǎn)非常明顯:

頁面被某幾個(gè) IP 超高頻訪問,單個(gè) IP每小時(shí)訪問量達(dá) 5000 以上

部分 IP 的訪問路徑極為單一,僅請(qǐng)求房?jī)r(jià)詳情頁面,無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡

訪問間隔極短,且每次均請(qǐng)求不同時(shí)間段不同地域不同編號(hào)的酒店客房信息

以上特點(diǎn)能完全排除真人訪問的可能,在 數(shù)據(jù)分析平臺(tái)中也觸發(fā)多個(gè)實(shí)時(shí)策略,讓我們可以協(xié)助用戶及時(shí)處理。

  * IP 點(diǎn)擊詳情

  **某一條點(diǎn)擊詳情的 request 和 response 信息

  **點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警

這類爬蟲就是典型的價(jià)格爬蟲,如不進(jìn)行實(shí)時(shí)判斷和攔截,網(wǎng)站的定價(jià)信息可能在幾小時(shí)內(nèi)就被競(jìng)爭(zhēng)對(duì)手完全掌握。

第二個(gè)成因是羊毛黨們?cè)噲D搜尋低價(jià)商品信息或在營(yíng)銷大促前提前獲取情報(bào)尋找套利的可能。

比如某 P2P 行業(yè)客戶發(fā)現(xiàn)近幾個(gè)月理財(cái)轉(zhuǎn)讓專區(qū)的產(chǎn)品幾乎在放出 2 秒內(nèi)就被轉(zhuǎn)讓成功,而網(wǎng)站的活躍用戶并沒有大幅的增長(zhǎng),轉(zhuǎn)讓專區(qū)疑似被爬。

通過數(shù)據(jù)分析平臺(tái)能在流量中能看到該轉(zhuǎn)讓頁面正在遭受爬蟲的攻擊,攻擊者能在極短時(shí)間內(nèi)獲取轉(zhuǎn)讓產(chǎn)品的收益率并自動(dòng)篩選高收益率的產(chǎn)品,甚至能實(shí)現(xiàn)腳本自動(dòng)下單購買。

另一個(gè)案例來自某電商平臺(tái),某次聲勢(shì)浩大的營(yíng)銷活動(dòng)規(guī)定新注冊(cè)用戶綁卡后能獲得一次抽獎(jiǎng)機(jī)會(huì),由于抽獎(jiǎng)接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎(jiǎng)的可趁之機(jī),造成活動(dòng)幾乎全部的獎(jiǎng)品被羊毛黨薅去。

  **網(wǎng)站營(yíng)銷頁面點(diǎn)擊量突增

**風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值

在事后復(fù)盤時(shí),我們?cè)跀?shù)據(jù)分析平臺(tái)中發(fā)現(xiàn)羊毛黨活動(dòng)前疑似派出爬蟲探路,活動(dòng)匯總頁面被超高頻訪問,雖然訪問量并不集中于某幾個(gè) IP ,但有訪問地域集中于某兩個(gè)城市、訪問路徑單一且訪問間隔有規(guī)律等特點(diǎn)。另外,通過風(fēng)險(xiǎn)情報(bào)系統(tǒng) Red.Q 的數(shù)據(jù),同樣提示這些訪問 IP 的高風(fēng)險(xiǎn)分值,活動(dòng)開始后羊毛黨的訪問也有類似的訪問規(guī)律。

羊毛黨的活動(dòng)特性是個(gè)大話題,在此先不展開,但從案例中能看到,價(jià)格爬蟲是羊毛黨們的先鋒探路工具,攻擊者們可以通過爬蟲獲得營(yíng)銷活動(dòng)的具體信息,同時(shí)能測(cè)試網(wǎng)站對(duì)高頻訪問或最大訪問量的限制,為之后的薅羊毛做鋪墊。

3. 注冊(cè)用戶被掃描

如果在網(wǎng)站的注冊(cè)頁面輸入一個(gè)已注冊(cè)過的號(hào)碼,通常會(huì)看到“該用戶已注冊(cè)”的提示,這一信息也會(huì)在請(qǐng)求的 response 中顯示,一些網(wǎng)站的短信接口也有類似邏輯,注冊(cè)用戶和非注冊(cè)用戶返回的字段和枚舉值會(huì)有不同。利用這一業(yè)務(wù)邏輯,惡意爬蟲通過各類社工庫拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。

這個(gè)數(shù)據(jù)有什么利用價(jià)值?除了很明顯的違法欺詐外,攻擊者可以將數(shù)據(jù)打包出售給競(jìng)爭(zhēng)對(duì)手或感興趣的數(shù)據(jù)營(yíng)銷公司,完善他們的精準(zhǔn)營(yíng)銷數(shù)據(jù)。

4. 其他危害

點(diǎn)擊欺詐:點(diǎn)擊欺詐會(huì)給網(wǎng)站造成實(shí)實(shí)在在的利益損失。投放廣告通常是為了觸達(dá)符合網(wǎng)站定位的潛在消費(fèi)者,爬蟲造成的點(diǎn)擊欺詐使得廣告的點(diǎn)擊率虛高,使得網(wǎng)站承擔(dān)了本不應(yīng)承擔(dān)的點(diǎn)擊費(fèi)用。從運(yùn)營(yíng)角度出發(fā),訪問量無原因的忽高忽高也不利于分析廣告投放效果。

網(wǎng)站帶寬負(fù)擔(dān):對(duì)于帶寬有限的中小型網(wǎng)站,爬蟲可能會(huì)降低網(wǎng)頁加載速度,影響真實(shí)用戶的訪問體驗(yàn)。

事前的甄別預(yù)防才是關(guān)鍵

惡意爬蟲在給網(wǎng)站帶來可觀訪問量的同時(shí),也帶來了難以估量的威脅和損失。

從實(shí)際案例中我們可以看到,惡意爬蟲已經(jīng)承擔(dān)了整個(gè)攻擊環(huán)節(jié)先鋒者的重任,所以在分析網(wǎng)站的業(yè)務(wù)安全風(fēng)險(xiǎn)時(shí),我們可以更多的關(guān)注流量和用戶行為的異常點(diǎn),盡可能的在惡意行為剛發(fā)生時(shí)就及時(shí)甄別并做出合理的判斷和攔截,必要時(shí),宜采用專業(yè)的風(fēng)險(xiǎn)情報(bào)系統(tǒng)和數(shù)據(jù)分析平臺(tái)進(jìn)行系統(tǒng)的部署。對(duì)于企業(yè)來說,事前預(yù)防遠(yuǎn)比事后補(bǔ)救重要。

關(guān)鍵字:爬蟲加載速度

本文摘自:互聯(lián)網(wǎng)早讀課

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 城固县| 翼城县| 正镶白旗| 龙海市| 正阳县| 泰宁县| 定日县| 葫芦岛市| 西充县| 察隅县| 金昌市| 游戏| 舟曲县| 尼木县| 琼结县| 玉环县| 承德县| 江永县| 洪江市| 汽车| 淮阳县| 夏河县| 娄烦县| 五河县| 麦盖提县| 咸丰县| 巩留县| 北京市| 陵川县| 花莲市| 昂仁县| 攀枝花市| 楚雄市| 合山市| 霍林郭勒市| 五峰| 富锦市| 社旗县| 金沙县| 五指山市| 乳源|