好好的程序員,怎么就變成犯罪團伙、犯罪嫌疑人了呢?
原來,被查的這家公司主要是通過爬蟲,爬取網絡直播間的數據,然后再打包售賣牟利的。而被帶走的很多程序員都是寫爬蟲的。
可能有人覺得這些程序員挺冤枉的,就是聽老板的話干活,爬取的都是公開的數據,咋就不行了呢?搜索引擎背后不也是爬蟲技術嗎,咋沒人去端百度呢?
沒錯,爬蟲技術本身是沒啥毛病的,但是市面上大多數企業中的爬蟲的用法,基本都不合規,因為完全合規的爬蟲根本沒有商業價值。
目前,關于網絡爬蟲相關的約束,主要是2019年05月28日國家網信辦發布的《數據安全管理辦法(征求意見稿)》。
基本可以確定的是,如果爬蟲使用不當,那么爬蟲的開發者是有可能觸犯法律的,而根據情況不同,獲得的刑罰也有可能有差異。
要看開發和使用爬蟲是否犯法,需要從爬什么數據、如何爬取數據以及爬到數據之后怎么用三個方面來判斷。
爬什么數據
1、屬于著作權法保護的作品因為有些網站發表的內容,如文章、評論等都是有著作權的,如果只是單純的通過瀏覽器查看是不會觸犯法律的。
但是,對于有著作權的作品,如果未經著作權人許可,以盈利為目的,對其作品進行復制是會觸犯法律的。
如果是使用爬蟲技術手段爬取數據之后將其保存下來或者傳播,并且進行盈利,這種都是屬于犯罪的。
2、用戶的個人信息或者個人隱私個人用戶的個人信息,即使是用戶自己放到一些網站上進行公開或者部分公開,如微博、微信等,不代表這些數據就可以被其他人隨便獲取!
所以,如果爬取的數據涉及到個人信息,都是違法的!
還有些爬蟲企圖繞過權限校驗等,爬取用戶未公開的信息,如個人私密相冊照片等,都是屬于侵犯用戶的個人隱私的,這種也是違法的。
3、反不正當競爭保護的數據目前有很多網站中的數據系由用戶生成,且該等數據和內容系原告網站的主要競爭力來源。如大眾點評上面的店鋪評價、評論等信息,攜程網上面的關于酒店的評價評論等信息等。
那么,未經允許,爬取其他網站的核心數據,很明顯并沒有遵守自愿、平等、公平、誠實信用的原則。就違反了反不當競爭法了。
怎么爬
如果是爬取公開的數據,通常不會被認為是侵權。Google、百度等搜索引擎都是這么爬取的。
那么,到底怎么爬數據是有可能觸犯法律的呢,主要考慮是否涉及以下兩種行為:
1、未遵守Robots協議Robots協議是技術界為了解決爬取方和被爬取方之間通過計算機程序完成關于爬取的意愿溝通而產生的一種機制。
無視網站設置的Robots協議而隨意抓取網站內容的行為將涉嫌構成對《反不正當競爭法》的第2條的違反,即違反誠實信用原則和商業道德的不正當競爭行為。
2、繞過防護措施對數據的訪問,強行突破反爬措施由于爬蟲的批量訪問會給網站帶來巨大的壓力和負擔,因此許多網站經營者會采取技術手段,以阻止爬蟲批量獲取自己網站信息。
所以,很多爬蟲工具為了爬取數據,會想辦法通過各種手段繞過防護措施,但是,這種行為也是會觸犯法律的。
企圖通過技術手段,繞過網站的反爬機制,都屬于《刑法》中規定的”侵入”,都是要被處罰的。
怎么用
很多公司開發的爬蟲遵守了Robots協議,也沒有爬取不該爬取的數據,難道這樣獲取到的數據就可以隨便使用了嗎?其實也不是,如果使用不當,也會觸犯法律的。
比如通過爬蟲抓取到的數據進行盈利、損害他人利益、造假、誹謗等都是可能觸犯法律的。
此外,未經被收集者同意,即使是將合法收集的公民個人信息向他人提供的,也屬于刑法第二百五十三條之一規定的“提供公民個人信息”,可能構成犯罪。
所以啊,真正的合規的爬蟲不能說沒有,但是鋌而走險的人還是占大多數。
爬蟲一時爽,鐵窗淚兩行!!!
對于程序員來說,如果你的老板讓你開發的爬蟲,是用來爬取用戶的個人信息或者個人隱私,并且該爬蟲未遵循Robots協議、并且有意的躲避反爬機制就可能觸犯到法律了。
可千萬不要老板讓你干啥就干啥,自己一定要長個心眼。畢竟情節嚴重三年以下,特別嚴重三年以上,七年以下!