隨著企業(yè)變得更加數(shù)據(jù)驅動,古老的計算諺語垃圾輸入,垃圾輸出(GIGO)從未像現(xiàn)在這樣正確。將AI應用于許多業(yè)務流程只會加速確保所用數(shù)據(jù)的準確性和及時性的需要,無論是內(nèi)部生成的數(shù)據(jù)還是外部來源的數(shù)據(jù)。
不良數(shù)據(jù)的代價
Gartner估計,企業(yè)因使用質量不佳的數(shù)據(jù)而平均每年損失1290萬美元。IBM計算出,糟糕的數(shù)據(jù)每年給美國經(jīng)濟造成的損失超過3萬億美元,其中大部分費用涉及企業(yè)內(nèi)部在數(shù)據(jù)通過和跨部門傳遞時檢查和更正數(shù)據(jù)的工作。IBM認為,知識工作者有一半的時間被浪費在這些活動上。
除了這些內(nèi)部成本外,客戶、監(jiān)管機構和供應商之間的聲譽損害也是一個更大的問題,這些問題來自基于不良或誤導性數(shù)據(jù)而行為不當?shù)慕M織。《體育畫報》及其CEO最近發(fā)現(xiàn)了這一點,當時該雜志被披露發(fā)表了由虛假作者撰寫的文章,并使用AI生成的圖像。雖然CEO丟掉了工作,但母公司Arena Group的市值損失了20%。也有幾起備受矚目的律師事務所通過提交虛假的AI生成的案件作為法律糾紛中優(yōu)先地位的證據(jù)而陷入困境。
AI黑匣子
盡管成本高昂,但檢查和更正企業(yè)決策和業(yè)務運營中使用的數(shù)據(jù)已成為大多數(shù)企業(yè)的既定做法,然而,考慮到幻覺的發(fā)生率越來越高,了解一些大型語言模型(LLM)是如何訓練的,以及關于哪些數(shù)據(jù)和輸出是否可信,則是另一回事。例如,在澳大利亞,一位當選的地區(qū)市長威脅要起訴OpenAI,因為該公司的ChatGPT虛假地聲稱,他曾因賄賂而入獄,而事實上,他一直是犯罪活動的舉報人。
對LLM進行可信數(shù)據(jù)培訓,并采用迭代查詢、檢索增強生成或推理等方法,是顯著減少幻覺危險的好方法,但不能保證它們不會發(fā)生。
關于合成數(shù)據(jù)的培訓
隨著企業(yè)通過部署AI系統(tǒng)尋求競爭優(yōu)勢,回報可能會流向那些能夠獲得足夠和相關的專有數(shù)據(jù)來訓練他們的模型的人,但是,無法獲得這些數(shù)據(jù)的大多數(shù)企業(yè)怎么辦?研究人員預測,如果目前的趨勢繼續(xù)下去,用于訓練LLM模型的高質量文本數(shù)據(jù)將在2026年前耗盡。
解決這個迫在眉睫的問題的一個辦法是增加對合成訓練數(shù)據(jù)的使用。Gartner估計,到2030年,AI模型中合成數(shù)據(jù)將超過真實數(shù)據(jù)的使用,然而,回到GIGO的警告,過度依賴合成數(shù)據(jù)可能會加速產(chǎn)出不準確和決策失誤的危險。此類數(shù)據(jù)只能與創(chuàng)建它的模型一樣好。數(shù)據(jù)混亂可能會帶來更長期的危險,因為AI模型是在不符合標準的合成數(shù)據(jù)上進行訓練的,這些數(shù)據(jù)產(chǎn)生的輸出然后被反饋到后來的模型中。
謹慎行事
AI精靈已經(jīng)從瓶子里出來了,雖然一些過于熱情的技術供應商和咨詢公司承諾的廣泛的數(shù)字革命需要更多時間才能發(fā)生,但AI將繼續(xù)以我們尚無法想象的方式改變商業(yè),然而,訪問企業(yè)所需規(guī)模的可靠和可信數(shù)據(jù)已經(jīng)成為CIO和其他企業(yè)領導人必須在為時已晚之前找到補救方法的瓶頸。
企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,同時在運營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。同時運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責任的權利。