就在今天,雅虎宣布開源了自家的網頁爬蟲工具 —— Anthelion。Anthelion 是雅虎用來爬取 HTML 中的語法結構數據的網絡爬蟲。然而對于雅虎來說,網絡爬蟲其實一直是處于非常核心的位置。其地位甚至高于雅虎的許多其他的核心應用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫無疑問,Anthelion 的開源對雅虎在 web 搜索領域的競爭力提升意義重大。
去年在上海的一次會議中,雅虎就公布了 Anthelion 的很多細節,會議中提到,Anthelion最初致力于爬取嵌入HTML網頁中的語義數據。例如:microdata 、microformats 和 RDFa 等。在這次會議上同時還提到了很多關于 Anthelion 爬蟲實現的技術。
Anthelion 的代碼現在以 Apache 開源授權協議托管到 GitHub:https://github.com/yahoo/anthelion,感興趣的朋友可以直接下載。