盡管成為了近年來技術發展的里程碑,人工智能(AI)仍然會受到意想不到的后果的影響。在2016年,微軟公司的Twitter機器人Tay在與平臺上的同行學習之后,竟然發布了種族主義和非常不適當的言論。由于無法從社會學習中覆蓋和改寫惡意信息,Tay的帳號被關閉,仍然只能保持私密。
像Tay這樣的其他事件也浮出水面。最著名的是谷歌公司的圖像識別軟件。GooglePhotos在將一些非白人用戶標記為“大猩猩”后被指控種族歧視。谷歌公司聲稱這個事件是無意的,但仍然是一個令人擔憂的問題,將一個被忽視的代碼轉化為種族歧視問題。
不幸的是,像微軟公司和谷歌公司這樣的算法仍然依賴于人類的輸入,并且其內容受到算法參數的限制。這是Tay無法通過互聯網確定真相,以及Google Photos無法區分一些非白人用戶與大猩猩的能力。然而,這個問題存在于比人們所知道的更多的算法中。
這種基于機器的偏見源自人類編程人工智能以自動化機器學習的時候。由于人類構建了用于訓練人造智能偏差的數據集,限制和人為錯誤可能會影響產出,故障原因在于人類從一開始就對這些機器進行培訓。
機器是人類互動的產物
有了人工智能,人類就是木偶大師。引導機器處理用于對數據集進行分類的信息是人類的輸入。在其最簡單的形式中,人工智能分析已知值的數據庫中的陌生的輸入,以得到正確的輸出。就像在人類學習一樣,更多的算法是輸入索引圖像,軟件處理就會越準確。如果你使用數百張貓照片訓練算法,則可以將之前從未見過暹羅貓的照片歸類為“貓”。但是,在受控環境中使用典型或完美圖像訓練算法時,可能會形成問題。如果開發人員不用代表不同條件的數據來訓練這些機器,則可能會出現并發癥。
這些問題甚至可能影響圖像處理軟件的意外應用,如條形碼識別。標準1D條形碼由包含編碼值的各種寬度的交替黑色和白色條紋組成。掃描儀通過分析條紋之間的寬度并將其與預選的參數集進行匹配來處理寬度。如果由于光線不良或打印質量差,條形不明確,則計算機無法對編碼數據進行解密。在這些情況下,計算機能夠檢測各種潛在的匹配,但需要額外的信息來識別正確的值。
誤讀條形碼可能讓用戶從在線訂單接收不正確的產品。在醫院,通過條形碼識別患者的關鍵健康信息,如藥物特異性過敏;不正確或部分掃描可能導致嚴重后果,如過敏性休克甚至死亡。不斷地糾正機器錯誤使用戶容易受到這些錯誤的影響。
例如,一個人看到老虎和斑馬,并且能夠基于他們是不同物種的知識來區分兩者。但是,如果沒有適當的訓練,計算機將會看到條紋,并假設它們是類似的同類。人類知道,斑馬和老虎被分為一類為不合邏輯,但是計算機需要提供整體投入才能清楚地解讀這個差異。
盡管創建一個具有明確數據集的綜合數據庫似乎是合乎邏輯的,但實際上大多數情況都有一些歧義。當算法涵蓋盡可能多的輸入時,人工智能驅動的機器具有精度的能力,但這不是一個解決方案。更多的投入也將暴露出與人類相同的偏見,所以機器如何破譯輸入和特征是一個重要的因素。隨著圖像識別技術的不斷完善,開發人員需要意識到他們在解決方案中使用的圖像以及對技術的影響。