《企業網D1Net》3月14日(北京 編譯)
有什么可以區別這三種主要類型的分析呢?一位數據科學家解釋了其中的差異。
大部分原始數據,特別是大數據,不能在其未加工狀態為我們提供很大的價值。當然,通過應用合適的工具,我們可以從這個存儲的碎片中提煉出有力的見解。
任何大數據的設置,第一步是捕獲大量的數字信息,“使其不存在短缺的問題”邁克爾·吳博士說。
有了第一手資料,就可以開始做分析了。但是,你該從哪里開始?哪一種分析類型更適合你的大數據環境呢?
吳在接受采訪時解釋了描述型的,預測型和規范型分析的不同,以及它們如何為組織提供價值。
他說。“一旦你有足夠的數據,你就開始看到模式了,你就可以建立一個這些數據如何起作用的模型了。一旦你建立了一個模型,你就可以進行預測了。”
第一步:描述型分析
在2013年3月份吳在這個主題上的博客系列中,他將描述型分析稱為“最簡單的一類分析,”利用這種分析你可以將大數據壓縮成更小,更有益的信息。
“記住,最原始的數據,尤其是大數據,不適合供人分析,但我們從數據中得出的信息是可以供我們分析的,”吳寫道。
描述型分析的目的是總結發生了什么事。吳估計,超過80%的商務分析——最明顯的是社會分析——是描述型的。
預測型分析是數據縮減的下一步
它利用各種統計,建模,數據挖掘技術和機器學習技術來研究近期的和歷史的數據,從而使分析家對未來做出預測。
“預測型分析的目的不是為了告訴你將來會發生什么,”吳博客中寫到。 “它不能做到這一點。事實上,任何分析都不能做到這一點。預測型分析只能預測在將來可能發生的事情,因為所有的預測型分析都是概率性的。”
吳告訴信息周刊說,在預測型分析的最一般的情況下,“基本上你需要得到你預測中沒有的數據”
例如,情感分析是預測型分析的一種常見類型:
吳說:“純文本的輸入模型,以及這一模型的輸出是一個情感指數,無論是積極的,消極的,或介于+1或-1之間的東西。”
在這種情況下,該模型計算出分數,但是它不一定能預測未來。相反,“它能預測我們沒有的數據,即情緒標簽數據,無論是正面或負面,”吳說。
規范型分析這一新興技術通過建議一個或多個課程行動,以及顯示每一決策的可能成果,超越了描述型和預測型模型
“規定型分析是預測型分析的一種,”吳說。“基本上是當我們需要規定一個動作,因此交易的決策者可以利用這一信息并采取行動。”
他補充說,預測型分析不能預測一個可能的未來,而是基于決策者行動的“多個未來”。
此外,規定型分析需要一個預測模型有兩個額外的組件:可操作的數據和一個可以追蹤所采取的行動所產生結果的反饋系統,。
“由于規定型模型能夠預測基于不同行為選擇可能帶來的各種后果,它也可以為您推薦基于任何預先指定結果的最好的行動過程,”吳寫道。