我們來探索一下數(shù)據(jù)的堅實基礎如何實現(xiàn)更少人工參與而更智能的人工智能。
在當前的技術領域,沒有什么能像人工智能(AI)那樣使人好奇和興奮。我們才漸漸看到企業(yè)內(nèi)人工智能應用程序的潛在好處。
然而,因為數(shù)據(jù)科學家往往無法獲得建立高效人工智能模型所需的相關數(shù)據(jù),企業(yè)中人工智能的發(fā)展受到了阻礙。這些數(shù)據(jù)專家往往只能依賴一些已知的來源,如現(xiàn)有的數(shù)據(jù)倉庫,而不能利用他們所需的所有實時的,真實的數(shù)據(jù)。此外,很多公司費了九牛二虎之力才能高效且經(jīng)濟地左右海量數(shù)據(jù)的業(yè)務環(huán)境和質量。有鑒于這些困難,人們不難理解人工智能的加速和采用所面臨的一些歷史障礙。
數(shù)據(jù)最終僅對人工智能有用——或在其它情況下有用——只有當你理解它時才成立。具體而言,這意味著你要了解它的背景和重要性。只有這樣,你才能放心大膽地用它來訓練人工智能模型。實現(xiàn)這一目標的唯一方法具備“智能數(shù)據(jù)”的根基。
多年來,我們所做的不僅僅是數(shù)據(jù)的收集和聚合,目的是推動特定的業(yè)務應用程序(數(shù)據(jù)1.0),由于數(shù)據(jù)的數(shù)量、種類和速度繼續(xù)暴漲(數(shù)據(jù)2.0),組織已經(jīng)能夠創(chuàng)建明確的流程,讓所有人都能使用數(shù)據(jù)。但這還遠遠不夠。我們現(xiàn)在已經(jīng)到了這樣的程度——人們需要智能數(shù)據(jù)才能真正為企業(yè)范圍的轉型提供動力(數(shù)據(jù)3.0)。
例如,試想一下一家公司重新定義其與客戶群的傳統(tǒng)關系所面臨的難題。假設你是一家生產(chǎn)剃須刀片的公司,其目標是通過訂閱而非柜臺直接交易的方式銷售刀片。指導這種顛覆性變革需要來自數(shù)據(jù)源(數(shù)據(jù)庫,數(shù)據(jù)倉庫,應用程序,大數(shù)據(jù)系統(tǒng),物聯(lián)網(wǎng),社交媒體等)的輸入,需要各種數(shù)據(jù)類型(結構化的、半結構化的和非結構化的)和不同位置(本地的、云端的,混合的和大數(shù)據(jù))。又或者,如果你是一家重型設備制造公司,該公司要確保你可以實時處理車間和機器人的所有數(shù)據(jù),以預測所有的停機時間,同時保持定期維護,以避免可能耗費數(shù)百萬美元的運營停機時間。
數(shù)據(jù)湖泊正在成為這樣的變革性事業(yè)所需的大量不同數(shù)據(jù)的首選存儲庫。但沒有智能數(shù)據(jù),這些湖泊則無甚價值。Gartner估計,到2018年,竟有90%的數(shù)據(jù)湖泊變得毫無用處,因為它們充斥著鮮有人能夠使用的原始數(shù)據(jù)。(“元數(shù)據(jù)能在數(shù)據(jù)湖泊中獲得目標數(shù)據(jù)。”)
相比之下,有了智能數(shù)據(jù),數(shù)據(jù)科學家就可以對“客戶”這樣的詞進行類似谷歌一樣的搜索,并立即發(fā)現(xiàn)相關數(shù)據(jù)的所有可能來源。智能數(shù)據(jù)可以節(jié)省大量寶貴的時間,不然數(shù)據(jù)科學家可能不得不花費大量時間來收集、組裝和改進模型所需的數(shù)據(jù)。智能數(shù)據(jù)還能實現(xiàn)最可靠的成果。
那么你如何確保數(shù)據(jù)真正實現(xiàn)智能化?方法就是構建端到端的數(shù)據(jù)管理平臺,該平臺本身就使用機器學習和人工智能功能,由廣泛的元數(shù)據(jù)驅動,以提高平臺的整體生產(chǎn)力。元數(shù)據(jù)是挖掘數(shù)據(jù)價值的關鍵。
如果你想確保自己能提供全面、重要且準確的數(shù)據(jù)來實施人工智能,那么你需要考察四種不同的元數(shù)據(jù)類別:
1. 技術元數(shù)據(jù):包括數(shù)據(jù)庫表和列信息以及有關數(shù)據(jù)質量的統(tǒng)計信息。
2. 業(yè)務元數(shù)據(jù):定義數(shù)據(jù)的業(yè)務情境以及它參與的業(yè)務流程。
3. 操作元數(shù)據(jù):有關軟件系統(tǒng)和流程執(zhí)行的信息,例如,它們會指示數(shù)據(jù)新鮮度(data freshness)。
4. 使用元數(shù)據(jù):有關用戶活動的信息,包括人們所訪問的數(shù)據(jù)集,評級和評論。
應用于此類元數(shù)據(jù)的人工智能和機器學習不僅有助于發(fā)現(xiàn)和推薦正確的數(shù)據(jù)。這樣的數(shù)據(jù)也會自動得到處理而無需人工干預,使其適用于企業(yè)人工智能項目。
數(shù)字化轉型迫使組織以不同的方式審視數(shù)據(jù),問題是組織想變成“老鷹還是小雞”。如今,人們可以隨時使用實時的、始終可用的數(shù)據(jù)和工具,使快速分析成為可能。這推動了人工智能和機器學習的發(fā)展,使過渡到數(shù)據(jù)優(yōu)先的方法成為現(xiàn)實。由于數(shù)字化、數(shù)據(jù)爆炸以及人工智能對企業(yè)的革命性影響,人工智能的復興正在蓬勃發(fā)展。
顯然,有無數(shù)的數(shù)據(jù)輸入可能影響人工智能應用程序的決策,因此組織需要對相關且有影響力的內(nèi)容進行分類,以及什么是噪聲。在你的組織采用人工智能驅動的數(shù)據(jù)管理方法之前,請考慮以下問題:
• 你希望通過人工智能技術實現(xiàn)什么樣的目標?
• 你是否有合適的數(shù)據(jù)策略來助力人工智能驅動的決策?
• 你具備合適的技能了嗎?