隨著我們深入ML和GenAI領域,對數據質量的重視變得至關重要。KMS Technology高級技術創新小組的首席技術官John Jeske深入研究了數據治理方法,如數據沿襲跟蹤和聯合學習,以確保頂級模型的性能。
數據質量是模型可持續性和利益相關者信任的關鍵。在建模過程中,數據質量使長期維護變得更容易,并使你能夠在利益相關者社區中建立用戶信心和信心。在包括大規模語言和生成性算法在內的復雜模型中,‘垃圾輸入,垃圾輸出’的影響會加劇。“Jeske說。
基因AI偏向與數據代表性問題
無論你為用例選擇哪種模型,糟糕的數據質量都不可避免地會導致GenAI模型的扭曲。陷阱通常來自培訓數據,這些數據錯誤地表示了公司的范圍、客戶基礎或應用程序范圍。
真正的資產是數據本身,而不是曇花一現的模型或建模架構。最近幾個月,隨著大量建模框架的出現,數據作為可貨幣化資產的一貫價值變得格外明顯。
KMS Technology軟件服務高級副總裁Jeff Scott補充道:“當AI生成的內容偏離預期輸出時,這不是算法的錯誤。相反,這反映了培訓數據的不足或扭曲。
嚴格的數據完整性治理
數據治理方面的最佳實踐包括元數據管理、數據管理和部署自動化質量檢查等活動。例如,確保數據的來源,在獲取用于培訓和建模的數據時使用經過認證的數據集,以及考慮使用自動化數據質量工具。雖然增加了一層復雜性,但這些工具對于實現數據完整性非常有用。
為了提高數據質量,我們使用了提供數據有效性、完整性檢查和時間一致性等屬性的工具,這促進了可靠、一致的數據,而這對于健壯的AI模型來說是不可或缺的。
AI發展中的責任追究和持續改進
數據是每個人的問題,在公司內分配數據治理的責任是一項基本任務。
最重要的是確保功能按設計工作,并且從潛在客戶的角度來看,正在訓練的數據是合理的。反饋加強了學習,然后在下一次訓練模型時考慮到反饋,從而調用持續改進,直到信任點。
在我們的工作流程中,AI和ML模型在公開推出之前要經過嚴格的內部測試。我們的數據工程團隊不斷收到反饋,允許對模型進行迭代改進,以最大限度地減少偏差和其他異常情況。
風險管理與客戶信任
數據治理需要相關業務領域的數據管理,并需要主題專家持續參與,這確保了流經其團隊和系統的數據得到適當整理和一致的責任。
必須了解與接收來自技術的不準確結果相關的風險,公司必須評估其透明度,從數據來源和處理知識產權到整體數據質量和完整性。
透明度對客戶的信任是不可或缺的,數據治理不僅僅是一項技術工作,由于風險從不準確的AI預測轉移到最終用戶,它還會影響公司的聲譽。
總之,隨著GenAI的不斷發展,掌握數據治理變得更加關鍵,這不僅僅是為了維護數據質量,也是為了理解這些數據與利用它的AI模型之間的復雜關系。這種洞察力對于技術進步、業務健康以及維護利益相關者和更廣泛公眾的信任至關重要。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。