Twitter本周宣布開源流量異常偵測工具Anomaly Detection,該工具可以發現那些能夠影響網站服務質量的異常活動,例如流量擁堵或垃圾信息機器人。
Anomaly Detection是一個R語言程序包,Twitter通常會在重大新聞和體育賽事期間用Anomaly Detection掃描入站流量,發現那些使用僵尸賬號發送大量垃圾(營銷)信息的機器人。
流量異常偵測figure_localglobal_anomalies
AnomalyDetection異常掃描
據Twitter透露,AnomalyDetection與Twitter去年10月開源的BreakoutDetection存在互補關系。
流量異常偵測對于號稱“地球脈搏”的Twitter來說非常具有挑戰性,因為對流量進行長周期跨度(例如一年)的掃描分析時,一些異常活動往往會掩蓋掉。此外,流量異常的原因也各有不同,有的是健康的,例如重大新聞事件導致的流量異常,而有的是不好的,例如QPS(每秒查詢量)中point-in-time實時性下降可能意味著硬件或數據采集方面出了問題。
Twitter流量異常偵測-長期figure_longterm
長周期流量異常偵測
AnomalyDetection通過GNU公眾授權許可協議開源,目前可以在GitHub上下載到源碼。