如今,市場對數據科學家的需求是巨大的。但是也有不利之處,因為有偏見的數據,其所面臨的風險也是巨大的。數據科學家凱西·奧尼爾為此創建了數據科學家的一個倫理政策。
人們可能不知道,數據科學有一個潛在的黑暗面,這是許多企業所忽視的東西。在當今社會,龐大的數據量對數據科學家造成巨大需求的時候,數據科學家凱西·奧尼爾不久撰寫一本著作,名為“數字破壞武器:大數據如何增加不平等和威脅民主”。她擔心的是,在急于利用大數據的情況下,可能會因為內置偏差使得結論不準確,并且可能具有相當的破壞性。她與高級技術編輯瓦勒瑞·斯威特一起探討數據科學領域的偏見,以及為什么企業需要制定數據科學倫理政策。
奧尼爾:人們認為可以解決任何數據問題,對此我感到惱火。我對這些數據持懷疑態度。
斯威特:那么,那些對數據科學領域具有偏見的企業需要害怕什么呢?
凱蒂·奧尼爾:我們有一個信任問題,而如今卻沒有足夠的審查。每個組織都需要數據科學家。但是,我們需要讓數據科學家在這些團隊中增加更多類型的人,以確保選擇是經過深思熟慮的。數據科學家沒有接受過道德倫理思考或思考這些問題的培訓。社會學家可能會看到非預期的后果,但數據科學家可能會導致愚蠢的事情發生。人們的正義和預警數據是基于吉姆克魯法律的,如果組織使用這些歷史數據來訓練當前的模型,他們將是種族主義。假設是,一旦你對數據做了一些事情,它就會自動使得價值和目標消失。社會科學家比數據科學家更為了解其不當之處。
斯威特:如果我們不注意數據科學領域的偏見,有什么風險?
奧尼爾:在這個過程中有一個風險,我們實際上得到的是自動化的偏見。如果團隊中沒有人提出正確的問題,你可以得到偏向于婦女或顏色或老年人的算法。在不久的將來,建立評估員工的內部算法的企業可能很快將面臨歧視性流程的訴訟。這不是癡人說夢。人們需要監控這些事情,并確保做得更好,并確保他們不是歧視性的。
斯威特:這只是一個內部問題嗎?
奧尼爾:當涉及到招聘等事情時,這是更明顯的,但你可以創建面向客戶的算法。如果你的業務與貸款有關,歧視可能就是一個很明顯的因素。這都有很多例子。
斯威特:那么,人們如何應對數據科學領域的偏見?
奧尼爾:一些大學開始向數據科學家講授倫理課程。但在這方面沒有很多監管。生物醫學實驗有很多規則和倫理,研究人員必須征得同意。這種事情不存在于大數據的世界。我們都不斷地進行A/B測試,大多數時候是愚蠢的事情,如“這個廣告圖片是什么顏色的?我們不必同意這些事情。這不是真正的測試,這個事情讓人困擾。人們實際上卻認為這些算法是完美的。沒有理由認為他們工作會犯錯。就像一家汽車廠商沒有測量結果,沒有經過安全測試,就將車輛直接上路行駛一樣。因此人們必須測量和驗證。”