大數據、機器學習、數據科學——數據分析革命正在迅速發展。讓你的商業分析師/商業智能專業人士(BA/BI pros)在數據分析的最新技術和策略上保持領先。
數據分析正在迅速成為IT的命脈。大數據、機器學習、深度學習、數據科學——分析大量數據的方法和技術的范圍正在迅速擴大。為了深入了解客戶行為、系統性能和新的收益機會,你的數據分析策略將受益于最新的數據分析趨勢。
下面一起來看看數據分析技術、方法和策略,以及開始降溫的曾經炙手可熱的數據分析趨勢。從業務分析師到數據科學家,每一個與數據打交道的人都受到數據分析革命的影響。如果你的組織希望利用數據分析實現可操作的智能,則數據分析趨勢的以下熱點指標應成為你的向導。
升溫:自助式商業智能(BI)
誰:商業分析師/商業智能(BI / BA)專業人士、管理者
通過Tableau、Qlik Sense、Power BI和Domo等自助式BI工具,管理人員可以按圖形形式獲取當前的業務信息。雖然IT一開始可能需要一定量的設置,但在添加數據源時,清理數據和創建分析的大部分工作都可以由商業分析師完成,并且分析可以隨時從他們打開的最新數據自動更新。
管理者可以用圖形化的方式與分析結果進行交互,以確定需要解決的問題。在商業智能生成的儀表板或有關銷售數字的“故事”中,這可能意味著要深入了解業績不佳的商店、銷售人員和產品,或發現同比的同店比較。這些發現可能會反過來指導未來的存貨水平、產品銷售和促銷活動決策、甚至在服務不足的地區建立額外的商店。
升溫:移動儀表板
誰:商業分析師/商業智能專業人士、管理者、開發者
在管理人員很少在辦公桌的世界里,管理工具需要對移動設備友好的儀表板提供有用和及時的幫助。大多數自助式商業智能工具已經具備這一功能,但并不是每一個關鍵的業務量度都必須通過商業智能工具。
例如,制造工廠可能會有一個專門的質量保證(QA)體系來監控所有生產線。所有工廠管理者都需要知道任何線路是否在事件發生的幾分鐘內已經偏離公差;這一切都可輕以松完地成,只需每分鐘查詢質量保證數據庫的應用程序,更新并顯示Shewhart控制圖,并在生產線不符合規格時可選擇性地發出警報。
降溫:Hadoop
誰:數據科學家
Hadoop似乎是“我應該如何存儲和處理真正的大數據”這個問題的答案。現在看起來更像是在“在變得不可能維護之前,你可以將多少個移動部件塞進系統里”的問題。
Apache Hadoop項目包括四個模塊:Hadoop Common(實用程序)、Hadoop分布式文件系統(HDFS)、Hadoop YARN(調度程序)和HadoopMapReduce(并行處理)。人們通常使用一個或多個相關項目:Ambari(集群管理)、Avro(數據序列化)、Cassandra(多主機數據庫)、Chukwa(數據收集)、HBase(分布式數據庫)、Hive(數據倉庫)、Mahout(機器學習和數據挖掘)、Pig(執行框架)、Spark(計算引擎),Tez(用于替換MapReduce的數據流編程框架)和ZooKeeper(協調服務)。
如果這還不夠復雜,還可以把Apache Storm(流處理)和Kafka(消息傳輸)算進來。現在考慮供應商的增值:亞馬遜(Elastic Map Reduce)、Cloudera、Hortonworks、Microsoft(HDInsight)、MapR和SAP Altiscale。感到困惑了嗎?
升溫:R語言
誰:有強大的統計數據的數據科學家
數據科學家有很多使用統計方法分析數據的選擇。最方便和最強大的方法之一是使用免費的R編程語言。R是創建可重復,高質量分析的最佳方法之一,因為與電子表格不同,R腳本可以被輕松審核并重新運行。R語言及其包存儲庫(package repositories)提供了廣泛的統計技術、數據處理和繪圖,以至于如果有技術存在的話,它就可能在R包中實現。R對機器學習的支持幾乎一樣強大,盡管它可能不是深層神經網絡的首選,因為這需要比R目前所提供的計算性能更高。
R以免費的開源形式提供,它被嵌入到數十種商業產品,包括Microsoft Azure Machine Learning Studio和SQL Server 2016。
升溫:深層神經網絡
誰:數據科學家
最強大的深度學習算法是某些深層神經網絡(deep neural network,DNN),它們是由多層交替的線性和非線性處理單元(因此稱為“深”)構建的神經網絡,并且使用大規模算法和大量的訓練數據進行訓練。深層神經網絡可能有10到20個隱藏層,而典型的神經網絡可能只有少數幾個。
網絡中的層數越多,它可以識別的特征就越多。不幸的是,網絡中的層數越多,則所需的計算時間越長,訓練的難度越大。可用于創建深層神經網絡的軟件包包括Caffe,微軟認知工具包(Microsoft Cognitive Toolkit)、MXNet、Neon、TensorFlow、Theano和Torch。
降溫:物聯網(IoT)
誰:商業分析師/商業智能專業人士、數據科學家
物聯網(IoT)可能是炒得最熱的一套技術。也可能是有史以來互聯網安全發生的最糟糕的事情。
物聯網已經被推崇為智能家居、可穿戴設備、智能城市、智能電網、工業互聯網、聯網車輛,聯網健康、智能零售、農業和其它一系列應用場景。如果實施是安全的,則其中很多應用程序將是有意義的,但是大體上沒有發生。
事實上,制造商經常犯基本的設計錯誤。在某些情況下,智能設備只有在連接到互聯網并通達制造商的服務器時才工作。就像Sony Dash和早期的Nest溫度計一樣,當制造商終止產品支持時,這就成為一個顯著的故障點(point of failure)。將接入遠程互聯網的服務器包含在控制回路中也會在控制回路中帶來顯著的、可變的延遲,這可能會引入不穩定性。
更糟糕的是,制造商在急于將他們的“物”連接到互聯網時暴露出被黑客利用的漏洞。汽車已被遠程接管,家用路由器已經被用在僵尸網絡進行DDoS(分布式拒絕服務)攻擊,公共電網在一些地區被關停……
使物聯網設備安全需要付出什么代價嗎?為什么廠商不注意?
在解決安全問題之前,物聯網的數據分析前途是風險大于回報的。
升溫:TensorFlow
誰:數據科學家
TensorFlow是谷歌的開源機器學習和神經網絡庫,它支撐著大部分(即便不是全部)谷歌的應用機器學習服務。(谷歌)翻譯,(谷歌)地圖和谷歌應用程序都使用運行在我們的智能手機上運行的基于TensorFlow的神經網絡。TensorFlow是谷歌云自然語言(Google Cloud Natural Language)、谷歌語音(Speech)、谷歌翻譯(Translate)和Vision的應用機器學習API的幕后支持者。
數據科學家一旦克服了學習框架的巨大障礙,他們就可以使用TensorFlow。TensorFlow具有強大的靈活性、真正的可移植性、結合研究和生產的能力、自動分化變量以及通過優先使用GPU而不是GPU的能力。向你的數據科學家推薦我的教程,或者讓他們查看簡化的Tensor2Tensor庫以開始使用。
升溫:MXNet
誰:數據科學家
MXNet(讀作“mix-net”)是類似于TensorFlow的深度學習框架。它缺乏對TensorFlow的可視化調試,但為TensorFlow所缺少的張量計算提供了一種必要的語言。MXNet平臺能立即將符號和命令式操作并行化,并且其調度程序之上的圖形優化層使得符號執行速度更快,內存更高效。
MXNet目前支持在Python、R、Scala、Julia和C ++中構建和訓練模型;經過訓練的MXNet模型也可用于Matlab和JavaScript中的預測。不管你用什么語言來構建你的模型,MXNet都會調用優化的C ++后端引擎。
降溫:批量分析
誰:商業分析師/商業智能專業人士、數據科學家
通宵運行批處理作業是我們在20世紀70年代所做的事情,當數據存在于9軌磁帶上時,“主機”則切換到批量模式進行第三次轉換時。在2017年,沒有理由將就于一天的數據。
在某些情況下,一個或多個舊系統(在某些情況下可能追溯到20世紀60年代)只能在夜晚不被使用時運行分析或備份數據。在其它情況下則沒有技術理由來運行批量分析,但是“我們一直這樣做”。
你比那要更好,你的管理層理應得到最新的數據分析。
升溫:微軟認知工具包2.0(Microsoft Cognitive Toolkit 2.0)
誰:數據科學家
微軟認知工具包(Microsoft Cognitive Toolkit,亦稱CNTK 2.0)是一個統一的深度學習工具包,通過有向圖(directed graph)將神經網絡描述為一系列計算步驟。它與TensorFlow和MXNet有很多相似之處,盡管微軟聲稱CNTK比TensorFlow更適用于循環網絡,它有更容易集成到應用程序的推理支持,并且還具有高效的內置數據讀取器,同時也支持分布式學習。
模型集(Model Gallery)目前有大約60個樣品,其中包括過去十年贏得比賽的多數模型。認知工具包(Cognitive Toolkit)是微軟小娜(Microsoft Cortana)、Skype實時翻譯、必應(Bing)和一些Xbox功能的基礎技術。
升溫:Scikit-learn
誰:數據科學家
Scikits是以SciPy為基礎構建的基于Python的科學工具箱,它是用于科學計算的Python庫。Scikit-learn是一個專注于機器學習的開源項目,這一開源項目對范圍蔓延(scope creep)和草率地使用未驗證的算法十分小心。另一方面,它有很多可靠的算法供選擇,它將Cython(Python到C編譯器)用在需要速度的函數(如內部循環)。
Scikit-learn并不涵蓋深度學習、強化學習、圖形模型和序列預測的領域。它被定義為存在于Python中,因此它沒有其它語言的API。Scikit-learn不支持PyPy,即快速即時編譯Python實施,它也不支持GPU加速,除了神經網絡,Scikit-learn幾乎用不著它。
在我測試過的所有機器學習框架中,Scikit-learn在易開發性上得分最高。這些算法就像它所宣稱的那樣有效,API是一致和精心設計的,數據結構之間幾乎沒有“阻抗不匹配”。使用這樣的庫是一件樂事,其中功能已被徹底具體化,錯誤被徹底沖刷掉。
降溫:Caffe
誰:數據科學家
曾經一度被看好的Caffe深度學習項目,原本是一個強大的圖像分類框架,似乎要宣告停止。雖然該框架具有強大的圖像識別卷積網絡,對CUDA GPU的良好支持并有相當好的可移植性,但其模型通常需要過多的GPU內存,該軟件有長達一年仍未修復的錯誤,其文檔在最好的情況下也是有問題的。
Caffe在一年多以來一直在奮力完成仍有很多錯誤的候選版,于2017年4月終于達到1.0版。而到2017年7月,已有500多個公開的問題。局外人可能會得到這樣一個印象:當深度學習社區轉移到TensorFlow、CNTK和MXNet時,項目就停滯不前。
升溫:Jupyter Notebooks
誰:數據科學家
Jupyter Notebook,最初叫做IPython Notebook,是一個開源的Web應用程序,它允許數據科學家創建和共享包含實時代碼、方程式、可視化和說明文本的文檔。用途包括數據清理和轉換、數值模擬、統計建模、機器學習等等。
Jupyter Notebook已經成為很多數據科學家和機器學習(ML)研究人員的首選開發環境。它們是Azure,Databricks和其它在線服務(包括機器學習和大數據)的標準組件,也可以在本地運行。“Jupyter”是一個松散的首字母縮略詞,意思是Julia、Python和R,三種流行的數據分析語言和Notebook內核的第一個目標,但是現在有大約80種語言的Jupyter內核。
升溫:云存儲和分析
誰:商業分析師/商業智能專業人士、數據科學家
有效分析的其中一句老話是“在數據所在的地方做計算”。如果你不遵守或不遵循此規則,如果數據跨越本地網絡,你的分析可能會有很大的延遲,甚至,如果它通過互聯網移動,延遲會更大。舉例來說這就是為什么微軟最近對SQL服務器(SQL Server)添加了R支持。
隨著貴公司生成的數據量呈指數級增長,數據中心的容量可能不足,你將不得不添加云存儲。一旦你的數據在云中,你的分析也應該在云中。最終,大多數新項目將在云中實施,現有項目將遷移到云端,將你的公司從資本性支出(CapEx)轉移到運營成本(OpEx)世界。
降溫:月度商業智能報告
誰:商業分析師/商業智能專業人士、數據科學家
在自助式商業智能變得流行之前,商業智能是IT的領域。管理人員描述了他們想要看到的內容,業務分析師將其轉化為規范,商業智能專家創建報告以滿足規范——鑒于積壓的工作。一旦定義了報告,它就一直按月運行,所有可能的報告的打印輸出都會在當月的第一天出現在管理層的收件箱,被瀏覽,在會議上進行討論,并最終采取行動或忽視。
有時,行動將定義一個新的報告來回答現有報告提出的問題。整個周期將重新開始,一兩個月后,新的報告將被添加到每月的打印輸出。
不幸地,想要敏捷的企業無法在幾個月內對環境和市場變化做出反應:提出問題和得到答案的時間應該是以秒或分而不是幾周或幾個月為單位。