隨著數字化進程的加速,企業越來越重視數據的價值。根據IDC預計,全球大數據市場規模在2019年將達到1870億美金。其中,企業除了關注自身的經營數據之外,對于外部數據,尤其是與自身息息相關的(如競品動態、輿情信息等)數據也非常關注。
在獲取這些數據時,最常用的手段就是爬蟲技術。但傳統的爬蟲開發難度大,除了需要自己搭建服務器并運維,還需要工程師根據爬取需求編寫代碼、對接代理服務等等。計算下來,企業平均每月開發和運維成本往往需要上萬元。
而獵云網(微信:ilieyun)今天帶來的“神箭手”則為個人開發者和企業提供了簡單便捷的爬蟲工具。該項目創始人吳桐2013年碩士畢業于西安交大軟件工程專業,畢業后加入谷歌搜索基礎設施組,2014年離開谷歌創辦壁虎數據恢復項目。
2015年8月,吳桐再度出發創辦神箭手,從爬蟲切入,希望把谷歌的大數據開發的管理理念帶給更多用戶。其核心創始團隊都是吳桐的大學同窗,從大三時期就與吳桐一起創業。吳桐向獵云網獨家透露,神箭手曾于2015年11月獲得過來自中路資本的數百萬元天使輪融資。
吳桐介紹,神箭手致力于成為一個一站式大數據應用開發平臺,旨在通過為客戶提供完整的開發架構和套件,降低大數據和AI應用開發的部署難度,實現從數據采集、清洗、訓練、導出的完整生命周期。
當然,對于尚在起步階段的神箭手來說,實現完整數據處理周期尚需時日。不過,該平臺已經在第一步的數據采集方面體現出了自己的特點與優勢。“爬蟲市場”就是其中之一。
為了最大限度降低個人開發者和企業使用爬蟲的技術門檻,神箭手團隊自行編寫了上百個爬蟲,使用者無需關注如何設置IP、如何設置驗證碼,甚至對編程一竅不通的小白用戶,也可以直接使用。
神箭手操作界面
據獵云網了解,神箭手提供的爬蟲可爬取的數據源囊括社交、電商、生活服務、互金、休閑旅游、汽車交通、醫療健康以及其他等多種分類。包括微博、淘寶、天貓、京東等網站的爬蟲,都能在爬蟲市場中找到。
值得一提的是,神箭手提供的爬蟲目前全部都是團隊自行編寫。之所以尚未提供第三方開發者編寫的爬蟲,吳桐認為,爬蟲對于代碼編寫技術要求較高,否則在運行時穩定性將受到影響。
雖然如此,但吳桐強調,現在的神箭手并非僅僅提供傻瓜式爬蟲,而是一個開發平臺。如果平臺提供的爬蟲無法滿足用戶需求,那么有開發實力的用戶也可以在神箭手平臺上自行編寫爬蟲并使用,并且平臺對于這種用戶還會有一定的鼓勵。
除爬蟲以外,目前平臺也提供了諸多API調用。“其實,無論是爬蟲還是API,甚至是直接購買數據池,都是用戶獲取數據的方式。我們希望夯實數據采集的第一步,再為用戶提供后續的數據服務。”吳桐說。
在商業模式上,神箭手采用的是銷售計算節點(服務器)的方式,每個節點79元,節點越多,爬蟲爬取的速度越快。當然,平臺也有套餐銷售,根據節點數不同分為個人版和企業版。用戶購買節點之后,根據爬蟲所適用的最低套餐即可使用爬蟲。而API則根據調用次數進行收費。
自2015年底產品上線以來,神箭手已積累了超過4萬名用戶注冊使用,其中包括500多家企業套餐付費客戶,目前月收入已超過20萬元。
在數據采集器市場,其實已有包括八爪魚這種工具存在。對于細分領域的競爭,吳桐認為,八爪魚等產品是以軟件形式存在,必須本地運行,這在數據爬取和軟件更新時就會有所限制。而神箭手則是云服務形式,更靈活,自主性更強。另外其更專注對頭部網站的爬取,這也是客戶的重點需求。
接下來,吳桐透露,神箭手在解決了第一步數據采集之后,就要向云端機器學習、數據清洗、BI等后續環節邁進。另外,為企業提供私有化部署也是神箭手下一階段的計劃之一。
未來,吳桐希望能夠將谷歌的代碼管理理念融入神箭手,現在正在進行運行權限管理的研發,在未來實現云協同開發。
目前,該項目正在進行新一輪融資。