在當前的技術領域,沒有什么能像人工智能(AI)那樣會引起人們的好奇和興奮。我們才剛剛開始看到企業內AI應用的潛在好處。
然而,企業中AI的發展受到了阻礙,因為數據科學家常常無法獲得建立有效人工智能模型所需的相關數據。這些數據專家經常被迫僅依賴于一些已知的來源,如現有的數據倉庫,而不能利用他們所需的全部實時和真實數據。此外,許多企業很難立即、有效且經濟地確定大量數據的業務環境和質量。鑒于這些困難,很容易理解AI加速發展和使用所面臨的一些歷史障礙。
在一天結束后,當您了解這些數據時,該數據才對AI或任何其他用途有用。具體而言,這意味著要了解其背景和相關性。只有這樣,您才能自信而安全地使用該數據來訓練AI模型。實現這一目標的唯一方法是以“智能數據”為基礎。
多年來,我們已經超越了對數據進行收集和聚合,以推動特定業務應用(數據1.0)的階段,同時各個組織已經能夠明確地定義流程,并隨著數據量、種類和速度繼續迅猛發展(數據2.0),允許所有人訪問數據。但這還遠遠不夠。我們現在已經達到了需要智能數據來真正為整個企業的轉型提供動力的階段(數據3.0)。
例如,想想一家公司在嘗試重新定義其與客戶群的傳統關系過程中所面臨的挑戰。假設您是一家生產剃須刀片的公司,您的目標是通過訂購而并非通過柜臺銷售。負責這種顛覆性變革工作需要大量的數據源(數據庫、數據倉庫、應用程序、大數據系統、物聯網和社交媒體等)輸入;各種數據類型(結構化、半結構化和非結構化)和各種位置(本地、云端、混合型和大數據)。或者,如果您是一家重型設備制造公司,需要確保您可以實時處理車間和機器人的所有數據,以預測未來的停機時間,同時堅持進行定期維護以避免操作性停機時間可能造成數百萬美元的收入損失。
數據湖正在成為進行這類變革性工作所需的大量異構數據的一個存儲庫。但沒有智能數據,這些數據湖就沒有什么價值。高德納公司估計,到2018年,令人震驚的是將有90%的數據湖將毫無用處,因為這些數據湖中充滿了幾乎沒有人有能力來使用的原始數據。(“元數據是數據湖中的有價值信息收集器。”)
相比之下,通過智能數據,數據科學家可以像使用谷歌一樣對“客戶”這樣的詞進行搜索,并會立即發現相關數據的所有潛在來源。智能數據可以節省大量寶貴的時間,否則數據科學家可能不得不花費時間來收集、整合和改進他們模型所需的數據。智能數據也可提供最可靠的結果。
那么,如何確保您的數據真正智能化呢?通過構建端到端數據管理平臺,該平臺本身使用機器學習和AI功能,并且由大量的元數據驅動,以提高該平臺的整體生產力。元數據是釋放數據價值的關鍵。
如果您希望確保提供全面、相關且準確的數據來實施AI項目,那么有四種不同的元數據類別您需要考慮:
1. 技術元數據--包括數據庫表和列信息以及有關數據質量的統計信息。
2. 業務性元數據--定義數據的業務背景以及元數據參與的業務流程。
3. 操作元數據--有關軟件系統和流程執行的信息,例如,這些信息將顯示數據的新鮮度。
4. 使用元數據--有關用戶活動的信息,包括訪問的數據集、評級和評論。
使用此元數據集合的AI和機器學習不僅有助于識別和推薦正確的數據。而且這些數據還可以被自動處理(無需人工干預),使其適用于企業AI項目。
數字化轉型迫使各個組織以不同的方式審視數據;這是一個讓你成為“獵物或捕食者”的問題。如今,人們可實時且隨時隨地訪問數據和使用工具,從而可以實現快速分析。這就促進了人工智能和機器學習發展,并允許向使用數據優先的方法進行過渡。由于數字化、數據爆炸以及人工智能對企業產生的變革影響,人工智能的復興正在蓬勃發展。
顯然,有無數的數據輸入可能會影響人工智能應用程序的決策,因此各個組織需要對相關的、有效的以及無用的內容進行分類。在您的組織采用由AI驅動的數據管理方法之前,請思考以下問題:
• 您希望通過AI技術實現什么目標?
• 您是否擁有數據相關的正確策略來幫助推動AI決策?
• 您具備適當的技能嗎?