一位美國聯邦法官裁定,Microsoft旗下的LinkedIn公司不能阻止第三方Web爬蟲爬取其公開資料數據。這一裁定是根據初創企業hiQ Labs針對LinkedIn的訴訟而于8月14日做出的,這次訴訟是在LinkedIn向該初創企業發出一份要求其停止并中斷爬取數據的信函后發起的。
hiQ Labs爬取LinkedIn用戶資料中的公開可見信息,為企業了解是否雇員有意向離職提供幫助。這類爬取行為違反了LinkedIn的反爬取軟件禁令,因此在2017年5月23日,LinkedIn向HiQ Labs發出了信函,要求該公司停止這類爬取行為,并威脅要依據《電腦欺詐和濫用法》(CFAA,Computer Fraud and Abuse Act)而采取法律行為。就此,hiQ Labs發起了對LinkedIn的訴訟,指責LinkedIn具有反競爭行為,侵犯了企業訪問公開可用信息的言論自由權利。該初創企業的代理律師指出,hiQ Labs應該并未訪問LinkedIn的主要數據源。法官Edward Chen在裁定中,特意呼吁LinkedIn對CFAA做“廣泛的詮釋”:“如果采納LinkedIn的行為,那么將對互聯網的開放訪問產生深遠的影響,這是議會在三十年前頒布CFAA時所不愿意看到的結果”。據報道,LinkedIn將對這一裁決提出上訴。
對于數據所有者及隱私,以及社會媒體公司對用戶公開發表信息的控制程度,該聯邦政令的影響重大。HiQ Labs認為,LinkedIn對公共資料獲取的限制違反了建立在最高法院最近的一項裁決上的“第一修正案”(the First Amendment),即將社交媒體網站等同于一種“現代公眾廣場”。Hacker News的一個熱議話題顯示,社交媒體用戶是否將他們公開發布數據等同視作將信息張貼在公開廣場上,這依然有待觀察。
在本次法庭案例中,涉及了數據隱私問題的另一個意外維度,那就是LinkedIn宣稱它想要保護的并非僅是數據本身,而是包括對被更改數據的訪問。LinkedIn允許用戶公開發表個人資料,默認情況下并不會共享對簡歷的某些更改。但是hiQ Labs通過大規模抓取可以檢測到資料中的更改情況,并使用這些發現情況去告警企業雇主存在潛在的雇員流失問題。雖然有部分用戶明白公開發表資料的深層影響,但是大多數用戶不可能時刻惦記從數據中可以產生何種洞察,以及這些數據會被如何使用,而有一些他們所不了解的企業卻在持續地監測個人資料的更新情況。
Programmable Web網站的主編David Berlind最近評論了該裁定對API經濟的影響。他指出,LinkedIn數據的價值并非在于數據本身,而是其后的數據模型。該裁定將允許機器人毫無顧忌地利用這些數據企業,這降低了LinkedIn等產品的整體價值。他進一步提出,該裁定強制企業允許爬蟲規避企業發布的API,妨礙了企業去“擴展并理解數據和數據所驅動價值之間的關聯性”。
雖然LinkedIn確實提供了一些API,但是看上去很多開發人員并不認為這些API適合自身的需要,因為編程界業已形成了廣泛爬取LinkedIn數據的事實。已有提供在Github上的開源爬取庫,開發人員可在Stack Exchange和Quora上就相關話題開展交流,商業數據爬取公司也提供了采集LinkedIn數據的教程。在2016年,該Microsoft旗下的公司發起了一次針對一百個匿名爬取數據機器人用戶的訴訟,所涉及的機器人意圖通過偽造的用戶賬號訪問非公開的簡歷數據。值得注意的是,LinkedIn非常支持白名單服務提供商(如搜索引擎)的爬取行為。
查看英文原文: LinkedIn Ordered to Allow Scraping of Public Profile Data