如今,很多人都在采用虛擬人工代理(例如Siri、Alexa、Google Now),利用機器學習收集和分析從人們的交互中收集的信息,以預測需求,并根據人們的偏好定制服務。社交媒體網站使用該技術推薦和結識更多的朋友,同時在照片應用中進行面部識別,以節省人們的時間、精力和資源。但除此之外,機器學習現在還通過檢測卡支付模式和改善在線購物交付方式來保護人們免受欺詐。
當今的企業希望他們的數據能夠承擔一些繁重的工作,并且希望降低成本,提高一致性,簡化操作。機器學習有助于大規模實現這一目標,調研機構德勤公司的調查發現,在2018年,57%的企業增加了相關技術的支出。雖然該技術以前被視為一種過度支出,但如今它被理解為對企業未來的投資和具有競爭力的收入驅動力。
數據專家和作者Bernard Marr表示,現在開發人員已經對算法和技術進行了試驗,機器學習將成為英國各地開展商業計劃和預算的核心。最近的研究支持這一說法,揭示了48%的歐洲組織現在認為機器學習對其近期業務的發展至關重要。
隨著像亞馬遜、Facebook和谷歌這樣的公司繼續推動機器學習技術的發展,那么如何充分利用最新和最好的算法?最成功的企業將是那些投資于新技術,并明智地利用他們可以使用的技能和數據系統的人。因此,人們忘記那些宣傳和炒作,要關注其最基本的方面。
按順序獲取數據
機器學習技術最大的特點之一是它的靈活性;它可以利用從供應鏈和庫存控制到工廠自動化和重復數據輸入任務的一切。每個應用程序都需要一個單獨的存儲庫,在該存儲庫中可以收集和操作數據,以允許算法評估值。為了讓機器學習算法提供明智的判斷和建議,底層數據庫必須穩定地提供清潔、準確、詳細的數據。
在最近由Vanson Bourne公司進行的調查中,近一半的組織承認對數據質量服務進行了投資,以確保其數據可用于所有機器學習應用。如果沒有數據質量和整合,人工智能技術就不會繼續提高癌癥患者的存活率,也不會使人工智能技術在國際象棋和圍棋比賽中取勝,也難以改變生物化學的面貌。
投資的轉變側重于確保捕獲的數據具有盡可能高的質量,而不是簡單地盡可能地擴大數據網的規模,這是一個明顯的行業變化。不到十年前,專用的數據質量服務和工具是一種利基服務,并且在數據繁重的業務中基本未被充分利用。現在,它們是企業高管未來計劃的重中之重。
隨著機器學習繼續以越來越高的速度發展,企業必須招募更多的數據科學家,并投資于處理此類算法的必要技術。可靠的高質量數據數據庫使組織更接近將機器學習整合到他們的業務中,但如果企業的數據科學家沒有正確的資源,那么這種勢頭將會減弱。
數據科學家的建議
在采取措施之前,企業必須考慮他們希望添加到其軟件生態系統中的各種編程語言,同時考慮到業務的最終目標,可用的編程技能以及每種語言的質量。
研究表明,64%的組織表示,依賴機器學習來挖掘大型數據集,并預測未來事件結果的預測分析是投資機器學習的關鍵動力。這種預測分析功能依賴于數據科學家對適當編程語言的掌握。那么如何掌握和獲得?通過學習、實驗,以及向他人請教。
根據2018年Tiobe Index的調查,Python成為全球最流行的編程語言之一,并已經超越其競爭對手,主要是因為其具有簡單性、可讀性、多功能性和靈活性。隨著全球數百萬人學習和使用該語言,越來越多的個人和團體在線共享程序、技巧和整個算法。Python的用戶網絡為希望使用和嘗試Python的企業提供了大量的學習材料。
基于Python的技術也在不斷涌現。 3月4日,深度學習庫TensorFlow的第二版Alpha發行。TensorFlow 2.0承諾繼續其前任作為世界上最受歡迎的機器學習項目之一,擁有更廣泛的Python庫。使用Python腳本,可以更輕松地利用數據科學社區的豐富知識和快速進步。
最終,企業應該致力于提供一個基礎數據基礎設施,所有團隊中的每個人都應該提供這些基礎設施。對于商業智能團隊來說,這通常是SQL(即使他們的工具生成它),但為了成功實現這一目標,必須允許數據庫科學家使用他們的首選語言(尤其是Python)運行數據腳本。數據的標準化和民主化意味著企業能夠以更具創造性和實驗性的方式在所有和部分業務中應用機器學習。
采用云計算
雖然內部部署的IT基礎設施能夠托管許多開源框架來構建機器學習解決方案,但如今許多企業缺乏有效支持這些解決方案的能力和可擴展性。例如,大多數企業目前沒有重要的GPU計算能力,因為他們計劃運營x86工作負載的容量,而平行工作的GPU服務器集群可能會大大加速深度學習算法的培訓過程。
如果企業正在評估項目的機器學習,則超大規模云平臺可以提供基于消費的GPU計算訪問。它還提供額外的x86計算,用于構建高性能數據庫分析的基礎設施,然后算法可以從中進行數據分析。
當需求從批量分析轉移到實時(或至少是業務時間)時,相關數據的流量必須與近乎實時工作的機器學習算法的需求保持同步。可以利用云計算彈性來確保在整個項目的生命周期中支持工作負載,并使企業可以自由地嘗試機器學習功能,而不會受到資本支出決策的阻礙。
組織將業務擴展到云端從未如此輕松,因為AWS、谷歌、亞馬遜三大公共云提供商都在為機器學習業務而不斷努力。盡管如此,去年的BI to DA Analytics研究發現,只有30%的組織利用云計算的彈性和可擴展性,并通過機器學習從組織的數據中獲取價值。
數據分析和機器學習基礎設施對于以數據為中心的組織而言至關重要。希望投資新技術戰略的企業應該確保他們的分析數據庫基礎設施能夠同時在內部部署和云計算應用程序上運行,讓他們可以自由地在第三方數據中心和內部部署之間遷移工作負載,以優化成本和計劃不斷發展其運營地區的數據治理要求。
雖然機器學習的復雜性和應用可能看起來令人生畏,但提供啟動機器學習項目的基礎設施比許多人想象的更為可行。事實上,企業已經在其標準IT流程中使用他們所需的技術:數據庫、編程語言、基礎設施即服務。為了優化機器學習的下一步,這些技術必須簡單地用于不同的容量。
隨著越來越多的組織優先考慮數據質量,并了解理解和應用機器學習的好處,他們將享受更好的決策和降低成本的好處。隨著市場競爭的加劇,企業獲得收益越來越難,采用機器學習將成為其業務走向成功的途徑。