Ovum(咨詢顧問公司)的分析師Tony Baer分享了他對于云端機器學習工具,物聯網驅動流分析和Hadoop的一些觀點。這些技術在2016年備受人們關注,2017年這種趨勢將會延續。
技術的實際應用前景才是推動技術進步的根本,特別是今年的一些主流技術。Ovum分析師Tony Baer深知這一點,當他在2017年的Ovum report預測大數據發展趨勢時,主要依據就是今年的技術應用情況。
Baer得出了如下結論,機器學習項目,物聯網(IoT)和實時流媒體分析,這些技術在2016獲得了廣泛關注,在未來一年,他們依然將引領技術趨勢。在一次采訪中,他深入討論了這些話題,他認為,基于云技術的Hadoop系統的發展,特別是在流分析領域,用例和技術可能是會形成一個完美的集合,引領“技術風暴”,他說。
您認為,機器學習將是2017大數據分析的最大攪局者。不過,機器學習項目是否僅限于那些大型公司,其使用范圍是否更為廣泛?
Tony Baer:它的應用范圍很廣。許多情況下,企業和消費者已經開始使用內嵌機器學習的服務了,他們只是沒有意識到而已。但是,數據科學家能夠自主編寫并使用機器學習算法,能夠進行內部開發的企業數量是有限的,所以機器學習在企業中的發展依然是受限的?,F在已經可有用于機器學習的算法庫,所以你不必再從頭編寫算法。
最近出現了新興的協作工具,旨在建立數據科學家和數據工程師或者業務人員之間的聯系。你可能看到使用工具的企業數量日漸增多,但這些也僅限于在那些擁有大量資源的企業,這類企業一般都是使用Hadoop的先鋒。
有時似乎人們沒有意識到機器學習項目需要一個學習階段,這可能是最費時的,充滿了試驗和錯誤的階段。
Baer:對的。幾年前,數據科學是熱門話題。每個人都希望被稱為“數據科學家”,并希望把這個職位印在他們的名片上?,F在,新興的東西是機器學習,所有數據科學家都想和它搭上關系。
他們可能忘記了重要一步:你必須首先學習數據科學。這不是機器學習的同義詞。它是科學的同義詞,因為你需要不斷地測試假設。它需要用科學方法分析阻礙并解決問題。它需要很大的耐心和毅力。
機器學習的頻譜范圍涉及很廣,從單終端異常檢測集群到集群深層的深度學習和認知(計算)都有機器學習的應用。但是,在繼續使用機器學習之前,你需要掌握數據科學,包括高級模式識別和許多不同方法.。
短期內,機器學習主要通過打包到應用程序來產生影響,如供應鏈優化,智能電網,威脅和欺詐檢測軟件等。它將嵌入這些應用程序。機器學習的主要影響力依然是通過包含它的應用產生的。
你提到的機器學習的用戶類似于Hadoop的用戶。那項技術花了一段時間才能真正推廣開來?,F在,似乎成了云的束縛。你認為Hadoop遷移到云中的速度會很快嗎?
Baer: 我所謂的Hadoop是一個多元的操作系統。這是關于混合和匹配的問題,這使得它很難被解釋,并可能對市場造成一定程度的混淆?,F在在云中,它甚至更難解釋。因為當你進入Amazon云,你可能不會使用到Hadoop分布式文件系統,而會使用S3(即Amazon Simple Storage Service)。
Hadoop不是為云而生的,但它與云的結合將是不可避免的趨勢。大約一年前,15%到20%的新工作負載將流向云端。現在,這個比例已經變成三分之一。我預計,未來12到18個月內,這個數字將達到50%。
數據流與復雜事件處理(CEP)具有相似性的,重點在于“復雜”。我們這些天在處理不同的事件,大多事件是類似于手機活動和點擊流。但這樣的情況真的有所不同嗎?
Baer:復雜的事件處理是問題的一個解決方案。除了一些專門的案例,比如金融服務,其中的邊緣處理是他們工作一部分,也是他們競爭的一部分。但是現在,我們有了較為完美的解決方案。
這是因為基礎設施變得更加方便和廉價,特別是隨著云的出現。在有CEP的情況下,當你需要處理的事件不是很多時,意義并不大。但是,當你可以像我們現在這樣擴大基礎設施的規模時,它就稱為了一個可行的解決方案。物聯網正在這么做。
使用物聯網并取得實際的價值,這種用例確實存在。物聯網正在增加實時流分析的必要性。例如包括任何事物的物理運動,無論是供應鏈,網絡優化或智能城市等。或者例如,在工作領域的資產管理和車隊管理。所有這些用例是有形的,實際上都具有明確的商業價值。
我們有更多的智能設備,這些設備在產生真正的信息。就是這些信息在驅動著流分析,這是開源技術和專有技術的混合體。CEP的處理十分昂貴,有一些工具是專有的,需要非常專業的技能。有了開源技術,學習和實驗的障礙就減少了。當所有這些事情正在發生時,那將是一場完美的“技術風暴”。