精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:人工智能行業動態 → 正文

開始使用人工智能時不得不問的10個問題

責任編輯:cres 作者:Daniel |來源:企業網D1Net  2021-02-05 10:37:16 原創文章 企業網D1Net

開始使用人工智能的一些組織將面臨一些問題,特別是在人工智能項目初始階段之后的規劃。
 
人工智能(AI)和機器學習(ML)技術正在顛覆全球幾乎所有行業,并且人工智能技術不僅在機器人技術和車輛自動化中得到應用,金融服務、零售、制造業、健康和生命科學等行業的組織也在通過人工智能(AI)和機器學習(ML)產生的見解實現業務的發展。
 
很多數字領導者也正在關注這些新興技術:
 
·根據調研機構IDG公司在2019年進行的數字業務研究,大型組織計劃在數字計劃上平均花費1530萬美元,其中人工智能(AI)和機器學習(ML)名列前茅。
 
·盡管對技術充滿熱情,但人工智能(AI)和機器學習(ML)項目的失敗率一直在50%到85%之間。
 
導致這些失敗的原因包括:沒有提前制定計劃、沒有得到高管或業務領導的認可、或者沒有找到合適的團隊來執行項目。在沒有適當策略的情況下追趕熱門技術趨勢,通常會使組織走上失敗的道路。
 
幸運的是,很多組織從這些失敗中接受了教訓,可以為其下一個人工智能(AI)或機器學習(ML)項目提供更好的計劃。以下是人工智能團隊在開始新的人工智能項目時應該問自己的10個問題:
 
1.是否明確了定義目標并確定了正確的問題?
 
令人驚訝的是,許多組織對他們想通過人工智能項目實現的目標并沒有清晰的愿景。此外,他們對于在實現目標的過程中采取必要的步驟沒有正確的認識。
 
WekaIO公司首席技術官Shimon Ben David說:“很多公司都會從‘我們知道人工智能是游戲規則的改變者,所以讓我們看看能用它做些什么’。”
 
WekaIO公司提供了并行文件系統來幫助解決存儲問題,就像那些開始人工智能之旅的公司一樣。
 
就像探險者為到達目的地做好準備一樣,組織項目負責人需要確定最終目標,然后提供一張地圖,其中包括旅程中每一步要遵循的具體方向。對于人工智能項目來說,需要確定具體的結果,然后通過提出問題和回答問題來指明方向,以幫助達到目標并實現預期的結果。
 
這里的關鍵是建立一個良好的人工智能團隊,有能力提出和回答這些問題。團隊成員可能包括軟件工程師、業務主管、主題專家,甚至是客戶。
 
例如,假設一家金融機構的最終目標是通過提高利潤率來獲得更多收入。首先要問的一個問題是,“如何使用人工智能來做到這一點”,其中的一個解決辦法是考慮使用人工智能來幫助降低貸款的違約率,從而獲得更好的投資回報。
 
因此,誰能提出正確的問題來確定違約風險最高的客戶?在這種情況下,這家金融機構的團隊成員和個人客戶將是提出問題和收集數據的最佳人選,因為他們是最接近數據來源的人——客戶。組織的團隊需要了解客戶面臨的問題,并經常與客戶進行互動,經常會聽到付款延遲的原因,這會導致貸款狀況受到威脅,有時甚至會導致違約。
 
對于良好的客戶,金融機構可以提供激勵,例如降低利率。對于高風險客戶,金融機構可以提供計劃和監控措施,以確保他們保持正常付款或將其排除在高風險類別之外。
 
需要記住的是,組織為實現最終目標而產生的問題可能會隨著收集的數據的增多而改變和演變。如果選擇了正確的目標,那么應該保持不變,但是當組織遇到問題和障礙時,實現目標的步驟可能會改變。如果還沒有確定正確的目標,則提出問題可能會讓組織明白這一點,這樣就可以朝著正確的方向前進。
 
Ben David說:“組織需要不斷地提出問題,這些問題很有可能隨著項目的進展而改變,但組織必須在一開始就對這些問題做出初步的回應。”
 
2.實現目標或解決問題需要哪些數據?
 
在人工智能項目團隊確定了人工智能可以實現的目標或可以解決的特定問題后,組織團隊將繼續提出問題,以確定實現目標或解決特定問題所需的數據或變量。
 
以這家金融機構為例,在確定高風險類別的貸款客戶之后,其團隊只是朝著目標邁出了第一步。需要記住的是,其目標不僅是確定違約風險較高的客戶,而且還要防止他們違約,以便可以提高利潤率。
 
研究團隊提出了更多的問題,以便進入下一個步驟:高風險類別中的每個客戶是否都面臨著同樣的情況,使他們無法支付貸款?如果不是,那么團隊如何識別和分類需要不同形式幫助以實現及時付款的客戶?有哪些補救措施可以幫助這些客戶并防止他們違約?
 
這就是數據實際發揮作用的地方。金融機構擁有客戶的姓名、個人信息、銀行信息、社交媒體公告、圖像、視頻和其他記錄,可以通過這些數據來回答問題。雖然存在大量數據,但可能不需要所有數據。另一方面,一些信息可能會丟失。事實上,大多數組織在開始實施人工智能項目時都認為有足夠的數據來回答這個問題,但是相當一部分數據已經丟失,或者他們擁有的數據對回答問題沒有用處。Ben David表示,根據他的經驗,從未遇到過一家收集太多數據的公司。
 
Ben David說:“也許我有銀行記錄,但它們沒有信用評分。也許我的社交媒體上沒有他們發布的相關標簽來幫助我了解他們的財務狀況。而了解數據中的內容非常重要。”
 
有時,組織必須采用自己的數據來填補缺失的內容。用于提取數據集的工具會根據需要收集的數據類型而有所不同。例如,Google Analytics提供了網站訪問者數據和指標,但是還可以通過Hubspot、Salesforce或許多其他服務擁有客戶或聯系人數據庫。
 
但是要記住的是:保留一切數據!組織往往會獲取大量數據,在創建人工智能或機器學習模型時提取數據,然后將原始數據存儲在某個永遠不會被訪問的地方,或者更糟的是,刪除未使用的數據。在以后重新評估需要再次使用原始數據的特定模型時,數據可能至關重要。
 
例如,研究犯罪的專家利用DNA技術和方法來幫助查證嫌疑人在幾年前或幾十年前犯罪的事實。因為在這些情況下需要存儲和保存證據,所以研究犯罪的專家可以重新分析犯罪線索。人工智能適用相同的原則:人們可能不認為自己現在需要所有收集的數據,但是多年以后,更好的算法或新技術的進步可能會將一些看似無用的數據變為高度相關的證據(例如頭發的DNA采樣)。
 
3.如果還沒有數據,將從哪里獲取數據?
 
如果組織發現自己需要更多數據,下一步將確定從何處獲取所需數據。組織是否生成了數據,是否購買或租用了這些數據?
 
例如,一家從事涉及遺傳學的人工智能項目的醫療公司需要查看公共基因組數據庫中的數據,但可能發現他們沒有特定人工智能模型所需的數據,在這種情況下,他們可能需要進行實驗?;蛘咭苍S他們只需要圖像中的一段數據,而不是查看一組完整的標記數據。
 
Ben David說:“組織要確保知道要在哪里獲取數據,但也要明白這一點可能會隨著時間的推移而改變。”
 
例如一名農民通過無人機拍攝其農田的大量照片,并通過傳感器收集數據,用于跟蹤作物生長或土壤濕度。即使農民收集了一個月的數據,其條件也會持續發生變化(天氣、作物生長、野生動物等),以至于數據收集工作永遠不會完成。因此數據采集不是一勞永逸的事情。Ben David 說,“需要提前計劃何時何地獲得下一批數據,并采取措施獲取數據,通常與其他工作同時進行。”
 
4.組織的計算策略是什么:內部部署、云計算還是混合部署?
 
人工智能項目遇到的一個主要問題是讓它在與組織的整體數字計算戰略不一致的計算平臺上運行。組織需要了解當前和將來的計劃可以幫助人工智能團隊正確規劃最佳方法,以接近用于人工智能或機器學習模型的平臺。
 
Ben David說,“如果希望采用最有效的方式來適應組織的戰略。這可能是因為組織在具有多個GPU的內部部署環境中投入了大量資金,這是組織獲得成功最快的一條途徑。”
 
人工智能和機器學習項目可以通過內部部署、云計算或混合平臺獲得成功,因為它們符合組織的整體戰略,并且不會與未來的變更或修改相沖突。而主要業務在云計算環境運營的中小組織可能會發現運營成本隨著規模的增長而變高,因此轉移到內部部署環境更有意義。
 
5. 移動和存儲數據的計劃是什么?
 
很多組織發現,在處理人工智能模型的過程中,他們并沒有存儲和移動數據的計劃。想象一下,跨國公司的業務部門遍布世界各地,在各地的多個地點生成數PB的數據。那么是在創建數據的地方進行處理,還是在世界各地的站點之間以某種方式傳輸數PB的數據?這是人工智能項目有時沒有考慮的關鍵事項之一。
 
另一種選擇是將數據集中在一個數據中心,但傳輸數據可能需要壓縮數據或以物理方式傳送數據,而不是通過云平臺傳輸數據,因為其成本十分高昂。而且,確保數據安全也是一個主要問題,因為某些數據由于所在地的法規而無法傳輸。最后,等到數據到達時在人工智能處理現場,可能會發現它已經過時了。
 
Ben David說:“每個組織都有不同的答案。但是如果不在項目開始時就考慮這個問題,那么很有可能會遇到問題。”
 
此外,組織需要考慮保留數據以備將來使用的策略。在許多情況下,組織頻繁進行實驗中生成數據。這些實驗數據需要保存、存儲和保護,但也可以在需要時用于快速檢索。如上所述,保留的數據集其中包括原始數據,這些數據當時似乎無關緊要,但隨著人工智能模型的發展和分析能力的發展,以后可能會有用途。Ben David強調,組織不應刪除或忽略原始數據。
 
6.將如何消除偏見并驗證模型結果?
 
收集數據并保存之后,需要確保知道如何驗證人工智能或機器學習模型生成的結果。一種方法是運行已知數據集并查看結果,以確保組織對預期結果具有更高的準確性。
 
例如,如果組織的人工智能算法正在識別一批照片,并確定哪些包括蘋果的圖像,哪些包括桔子的圖像,那么其模型會準確地識別出正確的水果嗎?Ben David說,人類通常可以很簡單地給出答案,但當數據集包含數百或數千張圖像時,人工智能的能力無法很好地擴展。在這種情況下,人工智能專家通常通過模擬器進行驗證,這樣可以在更大范圍內驗證人工智能模型。
 
此外,驗證結果是確定人工智能是否具有內置于模型中的固有偏見的重要步驟。例如,當亞馬遜公司的簡歷篩選應用程序沒有以性別中立的方式對軟件開發人員職位和其他技術職位的求職者進行評定。這是因為訓練過的模型是通過10年以來所提交的簡歷的模式來選擇求職者,而10年來的大多數簡歷都來自男性求職者(男性在軟件開發領域占據主導地位)。
 
在評估人工智能模型時,需要確保具有發現和消除偏見的策略,否則最終得到的結果可能會扭曲,影響項目的可信度。
 
7.多久微調一次模型?
 
由于人工智能和機器學習的大部分內容都基于軟件,因此開發人員經常采用“設置后不管”的方法,這對人工智能技術可能是災難性的。微調不僅包括準備好定期更改模型,還包括了解從業人員如何更改模型中的不同變量以實現不同的結果。
 
例如,某些人工智能模型將根據組織的數據提供結果,但還將說明它們如何獲得這些結果。但是,有些模型只是簡單地將結果提交出來,然后交給數據科學家去弄清楚原因,從而導致許多數據科學家稱之為“可解釋的人工智能”。 Ben David表示,任何人工智能項目總是在進行中,在可以為其決策提供充分理由的模型上創建和執行,是建立對模型的信任的重要一步。
 
組織通常會發現具有“不良數據”的結果。不良數據是尚未“清理”的數據,或者包含缺少的字段、重復項、或者數據類型的格式不正確,例如采用文本格式而不是以日期格式編寫的日期。
 
但是,即使是干凈的數據也可能被認為是不好的數據,如果它太具體或者具有偏見,比如在面部識別中產生的問題,或者在亞馬遜的簡歷掃描應用程序中發現的性別偏見。最初的數據可能看起來不錯,但在算法不斷篩選女性求職者的簡歷之后,其結果卻很糟糕,因為該模型沒有考慮到歷史數據中女性應聘者簡歷很少的情況。數學算法中的這個錯誤實際上表明了數據集中的錯誤:歷史數據不夠廣泛。
 
確定數據好壞的最佳方法是,首先確保數據干凈,然后檢查數據范圍是否足以產生公正的結果。
 
8.如何部署新模型?
 
通過定期進行微調的模型,組織就需要有圍繞部署新人工智能模型的可能性的策略,該模型可以更好地回答原始問題,或者根據他們看到的結果生成新問題的可能性。
 
例如,在某些時候,數據科學家可能會決定將其人工智能模型或算法轉移到其他神經網絡,這可能需要創建新的模型,而不是微調或修改原有的模型。其中許多決定取決于組織要實現的特定算法或目標,但人工智能團隊應該關注如何部署新的模型需要在以后的日期出現的問題。
 
有些人可能認為獲取更多數據是微調或創造更好結果的一種方式,但這對于許多公司而言可能是一個陷阱。如果數據不好,那么添加更多數據將不會解決問題。當人們認為獲取更多數據會有所幫助時,他們通常暗示需要獲取滿足高質量標準的更廣泛的數據集。
 
Data Quality Solutions公司總裁Thomas C.Redman在2018年發表在《哈佛商業評論》的一篇文章中指出,良好的數據必須以兩種方式正確處理:
 
(1)必須正確,貼有標簽,刪除重復數據等
 
(2)一定適合組織。
 
今年早些時候,Redman在《麻省理工學院斯隆管理評論》發表的一篇文章中還談到了組織在處理不良數據時經常浪費關鍵資源。他說:“糟糕的數據反過來會滋生對數據的不信任,進一步減緩創造優勢的努力。”
 
9.計算基礎設施在第3天和第300天的情況如何?
 
人工智能項目正在不斷變化和發展。算法或軟件以及計算基礎設施都可能發生變化,這意味著該模型可以開始在組織擁有的服務器上運行,然后轉換為在公共云或混合平臺中運行。如果組織將其人工智能數據策略與組織的整體計算策略保持一致,這并不是什么大問題。
 
Ben David說,“例如,一家組織以通過一兩名數據科學家采用帶有GPU的筆記本電腦開展項目,如果一切順利,那么需要更多的數據科學家工作,那么需要提供更多的基礎設施。組織需要做好規劃。”
 
隨著數據量的擴展和模型變得越來越復雜,對更健壯計算的需求也越來越大;否則,數據量是原來的10倍意味著模型將花費10倍的時間,從而降低了生產率和靈活性。計算規模擴展需要組織確??梢韵鄳財U展網絡。
 
組織經常會犯的代價高昂的錯誤是,沒有為項目過程中的數據顯著增長做好規劃。積累10倍的數據意味著存儲成本的顯著增加和額外的延遲,這通常是由于在冷存儲層中存儲更多的數據并將其來回移動到熱存儲層。這些讀寫操作非常耗時。一些組織為了規模經濟和靈活的容量,在云中對一些數據進行分層,這給多個服務器和不同的運營模式帶來了管理開銷。
 
較新的文件系統(如WekaFS)在服務器中管理不同的層,其吞吐量與本地存儲設施相當。使用現代文件系統可以極大地減輕成本和管理負擔,幫助組織在數據增加時保持較高的生產效率。大多數現代文件系統都是從頭開始設計的,以支持EB級的數據以及人工智能和機器學習工作負載。
 
10.如何對項目進行未來驗證?
 
Ben David表示,他看到許多組織在啟動人工智能項目時都對成功寄予厚望,但團隊并沒有對整個項目采取全面的看法,因此在開發方面將會遇到麻煩。他說:“很多組織在業務發展之后需要更多的基礎設施。通常情況下,會看到客戶試圖擴展其現有的基礎設施,而不是重新設計。”
 
例如,一名數據科學家可能在開始時采用自己的筆記本電腦工作,然后需要更多的數據科學家的參與,而組織的團隊需要在連接網絡的存儲設備上工作。
 
另一方面,一個項目可能是從云端開始的,但是團隊有10到50名數據科學家參與了這個項目,因此組織領導者認為購買用于計算、網絡和存儲環境的內部設備更劃算。圍繞如何有效管理增長和擴大項目規模制定戰略,有助于組織的人工智能項目需要經得起未來的考驗。
 
結論
 
總而言之,組織在項目上獲得成功必須有人工智能團隊在基礎設施變更方面保持靈活性,愿意微調其模型,并具有足夠的前瞻性思維,以制定計劃來安全有效地移動和存儲數據。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:人工智能AI

原創文章 企業網D1Net

x 開始使用人工智能時不得不問的10個問題 掃一掃
分享本文到朋友圈
當前位置:人工智能行業動態 → 正文

開始使用人工智能時不得不問的10個問題

責任編輯:cres 作者:Daniel |來源:企業網D1Net  2021-02-05 10:37:16 原創文章 企業網D1Net

開始使用人工智能的一些組織將面臨一些問題,特別是在人工智能項目初始階段之后的規劃。
 
人工智能(AI)和機器學習(ML)技術正在顛覆全球幾乎所有行業,并且人工智能技術不僅在機器人技術和車輛自動化中得到應用,金融服務、零售、制造業、健康和生命科學等行業的組織也在通過人工智能(AI)和機器學習(ML)產生的見解實現業務的發展。
 
很多數字領導者也正在關注這些新興技術:
 
·根據調研機構IDG公司在2019年進行的數字業務研究,大型組織計劃在數字計劃上平均花費1530萬美元,其中人工智能(AI)和機器學習(ML)名列前茅。
 
·盡管對技術充滿熱情,但人工智能(AI)和機器學習(ML)項目的失敗率一直在50%到85%之間。
 
導致這些失敗的原因包括:沒有提前制定計劃、沒有得到高管或業務領導的認可、或者沒有找到合適的團隊來執行項目。在沒有適當策略的情況下追趕熱門技術趨勢,通常會使組織走上失敗的道路。
 
幸運的是,很多組織從這些失敗中接受了教訓,可以為其下一個人工智能(AI)或機器學習(ML)項目提供更好的計劃。以下是人工智能團隊在開始新的人工智能項目時應該問自己的10個問題:
 
1.是否明確了定義目標并確定了正確的問題?
 
令人驚訝的是,許多組織對他們想通過人工智能項目實現的目標并沒有清晰的愿景。此外,他們對于在實現目標的過程中采取必要的步驟沒有正確的認識。
 
WekaIO公司首席技術官Shimon Ben David說:“很多公司都會從‘我們知道人工智能是游戲規則的改變者,所以讓我們看看能用它做些什么’。”
 
WekaIO公司提供了并行文件系統來幫助解決存儲問題,就像那些開始人工智能之旅的公司一樣。
 
就像探險者為到達目的地做好準備一樣,組織項目負責人需要確定最終目標,然后提供一張地圖,其中包括旅程中每一步要遵循的具體方向。對于人工智能項目來說,需要確定具體的結果,然后通過提出問題和回答問題來指明方向,以幫助達到目標并實現預期的結果。
 
這里的關鍵是建立一個良好的人工智能團隊,有能力提出和回答這些問題。團隊成員可能包括軟件工程師、業務主管、主題專家,甚至是客戶。
 
例如,假設一家金融機構的最終目標是通過提高利潤率來獲得更多收入。首先要問的一個問題是,“如何使用人工智能來做到這一點”,其中的一個解決辦法是考慮使用人工智能來幫助降低貸款的違約率,從而獲得更好的投資回報。
 
因此,誰能提出正確的問題來確定違約風險最高的客戶?在這種情況下,這家金融機構的團隊成員和個人客戶將是提出問題和收集數據的最佳人選,因為他們是最接近數據來源的人——客戶。組織的團隊需要了解客戶面臨的問題,并經常與客戶進行互動,經常會聽到付款延遲的原因,這會導致貸款狀況受到威脅,有時甚至會導致違約。
 
對于良好的客戶,金融機構可以提供激勵,例如降低利率。對于高風險客戶,金融機構可以提供計劃和監控措施,以確保他們保持正常付款或將其排除在高風險類別之外。
 
需要記住的是,組織為實現最終目標而產生的問題可能會隨著收集的數據的增多而改變和演變。如果選擇了正確的目標,那么應該保持不變,但是當組織遇到問題和障礙時,實現目標的步驟可能會改變。如果還沒有確定正確的目標,則提出問題可能會讓組織明白這一點,這樣就可以朝著正確的方向前進。
 
Ben David說:“組織需要不斷地提出問題,這些問題很有可能隨著項目的進展而改變,但組織必須在一開始就對這些問題做出初步的回應。”
 
2.實現目標或解決問題需要哪些數據?
 
在人工智能項目團隊確定了人工智能可以實現的目標或可以解決的特定問題后,組織團隊將繼續提出問題,以確定實現目標或解決特定問題所需的數據或變量。
 
以這家金融機構為例,在確定高風險類別的貸款客戶之后,其團隊只是朝著目標邁出了第一步。需要記住的是,其目標不僅是確定違約風險較高的客戶,而且還要防止他們違約,以便可以提高利潤率。
 
研究團隊提出了更多的問題,以便進入下一個步驟:高風險類別中的每個客戶是否都面臨著同樣的情況,使他們無法支付貸款?如果不是,那么團隊如何識別和分類需要不同形式幫助以實現及時付款的客戶?有哪些補救措施可以幫助這些客戶并防止他們違約?
 
這就是數據實際發揮作用的地方。金融機構擁有客戶的姓名、個人信息、銀行信息、社交媒體公告、圖像、視頻和其他記錄,可以通過這些數據來回答問題。雖然存在大量數據,但可能不需要所有數據。另一方面,一些信息可能會丟失。事實上,大多數組織在開始實施人工智能項目時都認為有足夠的數據來回答這個問題,但是相當一部分數據已經丟失,或者他們擁有的數據對回答問題沒有用處。Ben David表示,根據他的經驗,從未遇到過一家收集太多數據的公司。
 
Ben David說:“也許我有銀行記錄,但它們沒有信用評分。也許我的社交媒體上沒有他們發布的相關標簽來幫助我了解他們的財務狀況。而了解數據中的內容非常重要。”
 
有時,組織必須采用自己的數據來填補缺失的內容。用于提取數據集的工具會根據需要收集的數據類型而有所不同。例如,Google Analytics提供了網站訪問者數據和指標,但是還可以通過Hubspot、Salesforce或許多其他服務擁有客戶或聯系人數據庫。
 
但是要記住的是:保留一切數據!組織往往會獲取大量數據,在創建人工智能或機器學習模型時提取數據,然后將原始數據存儲在某個永遠不會被訪問的地方,或者更糟的是,刪除未使用的數據。在以后重新評估需要再次使用原始數據的特定模型時,數據可能至關重要。
 
例如,研究犯罪的專家利用DNA技術和方法來幫助查證嫌疑人在幾年前或幾十年前犯罪的事實。因為在這些情況下需要存儲和保存證據,所以研究犯罪的專家可以重新分析犯罪線索。人工智能適用相同的原則:人們可能不認為自己現在需要所有收集的數據,但是多年以后,更好的算法或新技術的進步可能會將一些看似無用的數據變為高度相關的證據(例如頭發的DNA采樣)。
 
3.如果還沒有數據,將從哪里獲取數據?
 
如果組織發現自己需要更多數據,下一步將確定從何處獲取所需數據。組織是否生成了數據,是否購買或租用了這些數據?
 
例如,一家從事涉及遺傳學的人工智能項目的醫療公司需要查看公共基因組數據庫中的數據,但可能發現他們沒有特定人工智能模型所需的數據,在這種情況下,他們可能需要進行實驗?;蛘咭苍S他們只需要圖像中的一段數據,而不是查看一組完整的標記數據。
 
Ben David說:“組織要確保知道要在哪里獲取數據,但也要明白這一點可能會隨著時間的推移而改變。”
 
例如一名農民通過無人機拍攝其農田的大量照片,并通過傳感器收集數據,用于跟蹤作物生長或土壤濕度。即使農民收集了一個月的數據,其條件也會持續發生變化(天氣、作物生長、野生動物等),以至于數據收集工作永遠不會完成。因此數據采集不是一勞永逸的事情。Ben David 說,“需要提前計劃何時何地獲得下一批數據,并采取措施獲取數據,通常與其他工作同時進行。”
 
4.組織的計算策略是什么:內部部署、云計算還是混合部署?
 
人工智能項目遇到的一個主要問題是讓它在與組織的整體數字計算戰略不一致的計算平臺上運行。組織需要了解當前和將來的計劃可以幫助人工智能團隊正確規劃最佳方法,以接近用于人工智能或機器學習模型的平臺。
 
Ben David說,“如果希望采用最有效的方式來適應組織的戰略。這可能是因為組織在具有多個GPU的內部部署環境中投入了大量資金,這是組織獲得成功最快的一條途徑。”
 
人工智能和機器學習項目可以通過內部部署、云計算或混合平臺獲得成功,因為它們符合組織的整體戰略,并且不會與未來的變更或修改相沖突。而主要業務在云計算環境運營的中小組織可能會發現運營成本隨著規模的增長而變高,因此轉移到內部部署環境更有意義。
 
5. 移動和存儲數據的計劃是什么?
 
很多組織發現,在處理人工智能模型的過程中,他們并沒有存儲和移動數據的計劃。想象一下,跨國公司的業務部門遍布世界各地,在各地的多個地點生成數PB的數據。那么是在創建數據的地方進行處理,還是在世界各地的站點之間以某種方式傳輸數PB的數據?這是人工智能項目有時沒有考慮的關鍵事項之一。
 
另一種選擇是將數據集中在一個數據中心,但傳輸數據可能需要壓縮數據或以物理方式傳送數據,而不是通過云平臺傳輸數據,因為其成本十分高昂。而且,確保數據安全也是一個主要問題,因為某些數據由于所在地的法規而無法傳輸。最后,等到數據到達時在人工智能處理現場,可能會發現它已經過時了。
 
Ben David說:“每個組織都有不同的答案。但是如果不在項目開始時就考慮這個問題,那么很有可能會遇到問題。”
 
此外,組織需要考慮保留數據以備將來使用的策略。在許多情況下,組織頻繁進行實驗中生成數據。這些實驗數據需要保存、存儲和保護,但也可以在需要時用于快速檢索。如上所述,保留的數據集其中包括原始數據,這些數據當時似乎無關緊要,但隨著人工智能模型的發展和分析能力的發展,以后可能會有用途。Ben David強調,組織不應刪除或忽略原始數據。
 
6.將如何消除偏見并驗證模型結果?
 
收集數據并保存之后,需要確保知道如何驗證人工智能或機器學習模型生成的結果。一種方法是運行已知數據集并查看結果,以確保組織對預期結果具有更高的準確性。
 
例如,如果組織的人工智能算法正在識別一批照片,并確定哪些包括蘋果的圖像,哪些包括桔子的圖像,那么其模型會準確地識別出正確的水果嗎?Ben David說,人類通??梢院芎唵蔚亟o出答案,但當數據集包含數百或數千張圖像時,人工智能的能力無法很好地擴展。在這種情況下,人工智能專家通常通過模擬器進行驗證,這樣可以在更大范圍內驗證人工智能模型。
 
此外,驗證結果是確定人工智能是否具有內置于模型中的固有偏見的重要步驟。例如,當亞馬遜公司的簡歷篩選應用程序沒有以性別中立的方式對軟件開發人員職位和其他技術職位的求職者進行評定。這是因為訓練過的模型是通過10年以來所提交的簡歷的模式來選擇求職者,而10年來的大多數簡歷都來自男性求職者(男性在軟件開發領域占據主導地位)。
 
在評估人工智能模型時,需要確保具有發現和消除偏見的策略,否則最終得到的結果可能會扭曲,影響項目的可信度。
 
7.多久微調一次模型?
 
由于人工智能和機器學習的大部分內容都基于軟件,因此開發人員經常采用“設置后不管”的方法,這對人工智能技術可能是災難性的。微調不僅包括準備好定期更改模型,還包括了解從業人員如何更改模型中的不同變量以實現不同的結果。
 
例如,某些人工智能模型將根據組織的數據提供結果,但還將說明它們如何獲得這些結果。但是,有些模型只是簡單地將結果提交出來,然后交給數據科學家去弄清楚原因,從而導致許多數據科學家稱之為“可解釋的人工智能”。 Ben David表示,任何人工智能項目總是在進行中,在可以為其決策提供充分理由的模型上創建和執行,是建立對模型的信任的重要一步。
 
組織通常會發現具有“不良數據”的結果。不良數據是尚未“清理”的數據,或者包含缺少的字段、重復項、或者數據類型的格式不正確,例如采用文本格式而不是以日期格式編寫的日期。
 
但是,即使是干凈的數據也可能被認為是不好的數據,如果它太具體或者具有偏見,比如在面部識別中產生的問題,或者在亞馬遜的簡歷掃描應用程序中發現的性別偏見。最初的數據可能看起來不錯,但在算法不斷篩選女性求職者的簡歷之后,其結果卻很糟糕,因為該模型沒有考慮到歷史數據中女性應聘者簡歷很少的情況。數學算法中的這個錯誤實際上表明了數據集中的錯誤:歷史數據不夠廣泛。
 
確定數據好壞的最佳方法是,首先確保數據干凈,然后檢查數據范圍是否足以產生公正的結果。
 
8.如何部署新模型?
 
通過定期進行微調的模型,組織就需要有圍繞部署新人工智能模型的可能性的策略,該模型可以更好地回答原始問題,或者根據他們看到的結果生成新問題的可能性。
 
例如,在某些時候,數據科學家可能會決定將其人工智能模型或算法轉移到其他神經網絡,這可能需要創建新的模型,而不是微調或修改原有的模型。其中許多決定取決于組織要實現的特定算法或目標,但人工智能團隊應該關注如何部署新的模型需要在以后的日期出現的問題。
 
有些人可能認為獲取更多數據是微調或創造更好結果的一種方式,但這對于許多公司而言可能是一個陷阱。如果數據不好,那么添加更多數據將不會解決問題。當人們認為獲取更多數據會有所幫助時,他們通常暗示需要獲取滿足高質量標準的更廣泛的數據集。
 
Data Quality Solutions公司總裁Thomas C.Redman在2018年發表在《哈佛商業評論》的一篇文章中指出,良好的數據必須以兩種方式正確處理:
 
(1)必須正確,貼有標簽,刪除重復數據等
 
(2)一定適合組織。
 
今年早些時候,Redman在《麻省理工學院斯隆管理評論》發表的一篇文章中還談到了組織在處理不良數據時經常浪費關鍵資源。他說:“糟糕的數據反過來會滋生對數據的不信任,進一步減緩創造優勢的努力。”
 
9.計算基礎設施在第3天和第300天的情況如何?
 
人工智能項目正在不斷變化和發展。算法或軟件以及計算基礎設施都可能發生變化,這意味著該模型可以開始在組織擁有的服務器上運行,然后轉換為在公共云或混合平臺中運行。如果組織將其人工智能數據策略與組織的整體計算策略保持一致,這并不是什么大問題。
 
Ben David說,“例如,一家組織以通過一兩名數據科學家采用帶有GPU的筆記本電腦開展項目,如果一切順利,那么需要更多的數據科學家工作,那么需要提供更多的基礎設施。組織需要做好規劃。”
 
隨著數據量的擴展和模型變得越來越復雜,對更健壯計算的需求也越來越大;否則,數據量是原來的10倍意味著模型將花費10倍的時間,從而降低了生產率和靈活性。計算規模擴展需要組織確??梢韵鄳財U展網絡。
 
組織經常會犯的代價高昂的錯誤是,沒有為項目過程中的數據顯著增長做好規劃。積累10倍的數據意味著存儲成本的顯著增加和額外的延遲,這通常是由于在冷存儲層中存儲更多的數據并將其來回移動到熱存儲層。這些讀寫操作非常耗時。一些組織為了規模經濟和靈活的容量,在云中對一些數據進行分層,這給多個服務器和不同的運營模式帶來了管理開銷。
 
較新的文件系統(如WekaFS)在服務器中管理不同的層,其吞吐量與本地存儲設施相當。使用現代文件系統可以極大地減輕成本和管理負擔,幫助組織在數據增加時保持較高的生產效率。大多數現代文件系統都是從頭開始設計的,以支持EB級的數據以及人工智能和機器學習工作負載。
 
10.如何對項目進行未來驗證?
 
Ben David表示,他看到許多組織在啟動人工智能項目時都對成功寄予厚望,但團隊并沒有對整個項目采取全面的看法,因此在開發方面將會遇到麻煩。他說:“很多組織在業務發展之后需要更多的基礎設施。通常情況下,會看到客戶試圖擴展其現有的基礎設施,而不是重新設計。”
 
例如,一名數據科學家可能在開始時采用自己的筆記本電腦工作,然后需要更多的數據科學家的參與,而組織的團隊需要在連接網絡的存儲設備上工作。
 
另一方面,一個項目可能是從云端開始的,但是團隊有10到50名數據科學家參與了這個項目,因此組織領導者認為購買用于計算、網絡和存儲環境的內部設備更劃算。圍繞如何有效管理增長和擴大項目規模制定戰略,有助于組織的人工智能項目需要經得起未來的考驗。
 
結論
 
總而言之,組織在項目上獲得成功必須有人工智能團隊在基礎設施變更方面保持靈活性,愿意微調其模型,并具有足夠的前瞻性思維,以制定計劃來安全有效地移動和存儲數據。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:人工智能AI

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 克山县| 莱州市| 嘉善县| 岑巩县| 白城市| 敦煌市| 荣成市| 隆林| 金川县| 迁西县| 海林市| 福建省| 元朗区| 诸城市| 民权县| 贞丰县| 崇左市| 陆河县| 静宁县| 宜黄县| 砚山县| 饶阳县| 德阳市| 南涧| 富锦市| 兰考县| 盈江县| 潼关县| 玉龙| 定州市| 柳河县| 麻城市| 新邵县| 新泰市| 宜春市| 万年县| 陕西省| 灌南县| 隆安县| 财经| 克什克腾旗|