在過去的幾年里,人工智能在機器學習方面取得了驚人的進步,如深度學習。深度學習是機器學習的一個更廣泛的領域,它關注計算機的學習能力而不需要編程。深刻的學習已經(jīng)取得了一些難以置信的成功。
可以說,現(xiàn)代深度學習的時代可以追溯到2012年的ImageNet挑戰(zhàn)。ImageNet是一個數(shù)百萬的圖像數(shù)據(jù)庫,使用名詞,例如“草莓”,“檸檬”和“狗”等進行分類。在這個挑戰(zhàn)期間,卷積神經(jīng)網(wǎng)絡(CNN)可以達到16%的錯誤率(在此之前,最好的算法只能達到25%的錯誤率)。
深度學習最大的挑戰(zhàn)之一是需要訓練數(shù)據(jù)。需要大量的數(shù)據(jù)來訓練網(wǎng)絡來做最基本的事情。這些數(shù)據(jù)也必須相對干凈,才能創(chuàng)建具有任何有意義的預測價值的網(wǎng)絡。對于許多組織來說,這使機器學習變得不切實際。創(chuàng)建神經(jīng)網(wǎng)絡的機制不僅僅是具有挑戰(zhàn)性的(盡管這本身就是一個艱巨的任務),而且也是組織和構造足夠的數(shù)據(jù)來做一些有用的事情的方法。
世界上有大量的數(shù)據(jù),根據(jù)調查研究,預計2025年全球數(shù)據(jù)量將超過180澤字節(jié)(1澤字節(jié)等于10的20次方)。全球有99%的數(shù)據(jù)尚未分析,超過80%的數(shù)據(jù)是非結構化的這意味著人們正在收集的數(shù)據(jù)中有很多機會和隱藏的寶藏。然而令人遺憾的是,這些數(shù)據(jù)中的很大一部分都沒有進行分析。
那么,企業(yè)可以做些什么呢?
企業(yè)需要考慮與今天的做法不同的數(shù)據(jù)。數(shù)據(jù)必須被認為是信息和分析的基石。必須收集回答一個問題或一組問題。這意味著它必須具有以下特征:
·準確性:雖然顯而易見,但數(shù)據(jù)必須準確。
·完整性:數(shù)據(jù)必須是相關的,并且必須提供回答問題所需的數(shù)據(jù)。數(shù)據(jù)不完整的一個明顯的例子是一個教室里有30個學生,但是老師計算的平均數(shù)只有15個。
·一致性:如果有一個數(shù)據(jù)庫表示一個班有30名學生,而另一個數(shù)據(jù)庫表明同班有31名學生,那么這是一個問題。
·唯一性:如果學生在兩個不同的數(shù)據(jù)庫中有不同的標識符,這是一個問題,因為這會帶來信息不完整或不一致的風險。
·及時性:數(shù)據(jù)可能會改變,人工智能模型可能需要更新。
除了數(shù)據(jù)本身之外,還有嚴重的制約因素,可能會阻礙分析和深入學習,其中包括安全性和訪問、隱私、合規(guī)性、知識產(chǎn)權保護,以及物理和虛擬障礙。這些限制需要考慮。如果它擁有所有的數(shù)據(jù),但由于各種原因無法訪問數(shù)據(jù),它并不能幫助企業(yè)。通常,需要采取諸如清理數(shù)據(jù)的步驟,以便不會有私人內容。有時需要在共享數(shù)據(jù)的各方之間達成協(xié)議,有時需要進行技術性的工作,才能將數(shù)據(jù)轉移到可以分析的地方。最后,需要考慮數(shù)據(jù)的格式和結構。例如,行業(yè)專家在研究美聯(lián)儲的個人項目的匯率從40年前回落的問題,然后發(fā)現(xiàn)其中有一個令人頭痛的時刻,那就是從1999年起有一個不連續(xù)點:歐元已經(jīng)取代了大多數(shù)歐洲貨幣。有一種方法可以緩解這個問題,但是令人深感不滿。因為遺留數(shù)據(jù)可能很豐富,但可能與當前的問題不兼容。
這個故事的寓意是人們被大量數(shù)據(jù)所困擾,但是這些條件通常不允許數(shù)據(jù)被使用。有時候,企業(yè)是幸運的,只要努力一點,就可以把數(shù)據(jù)塑造得很好。企業(yè)經(jīng)常需要重新思考如何將數(shù)據(jù)收集或轉換成可消費的表格。可以達成協(xié)議來共享數(shù)據(jù)或合并數(shù)據(jù)集,但完整性問題往往依然存在。
如前所述,成功的關鍵是從一個問題開始,然后構建培訓數(shù)據(jù)或收集正確的數(shù)據(jù)來回答問題。盡管收集培訓數(shù)據(jù)存在巨大障礙,但企業(yè)對數(shù)據(jù)科學家日益增長的影響力所顯示的更高質量的數(shù)據(jù)顯然是一種推動。專家非常樂觀地認為,高質量的培訓數(shù)據(jù)將會得到改善,從而使各種規(guī)模的企業(yè)更廣泛地采用人工智能。