對于大數據的應用場景,談的文章已經相當多,包括各行各業對大數據處理和分析的應用,在此僅僅思考在各種不同的行業如何來發現潛在存在的大數據應用場景。
首先可以從大數據的4V特性入手來進行思考和分析,在數據類型上更加強調了多種異構類型數據形成的混合存儲,對于傳統單純的結構化數據或單純的文檔類非結構化數據都有解決方案,而真正難的是混合存儲并提供統一的大數據服務開放能力接口。拿企業內部信息化應用場景來說,如果從單一入口原則入手,某個關鍵字能夠搜索到郵件,業務系統,文本文檔,互聯網等多種渠道來源的異構混合數據,即可形成一個典型的大數據場景。
對于海量的問題一定要區分結構化數據和非結構化數據分別對待,對于完全的結構化數據往往上10T已經是一個海量的數據庫,如果僅僅從單節點考慮這種數據庫已經很難真正滿足大數據分析所需要的速度要求,轉而才是需要的類似MPP+ShareNothing機制或Hadoop分布式存儲加分析機制來解決OLAP層面的問題。因此對于傳統的BI應用面對海量數據無法滿足準實時性數據分析需求的時候,需要考慮的是大數據分析和應用。
在速度和時效上是我們考慮的另外一個重要問題,傳統的ODS庫或OLAP分析往往很難滿足實時性的要求。而基于增量的實時數據采集,流處理機制等很好的解決了這個問題。在這里并不是強調的數據量和數據的異構情況,而是更加強調了對數據的增量實時采集和分析機制。那么對于傳統ODS構建無法滿足實時或即席查詢的場景往往也存在大數據技術的應用。
其次從大數據帶來的一些思維轉變上來分析大數據的場景,首先是對于企業的大數據分析和應用,首先就是要將視線從傳統的企業內部拓展到企業外部,特別是在用戶行為分析,市場營銷等方面基于企業內部傳統業務系統收集的數據是遠遠不夠的,只有基于大量外部數據的相關性分析往往才能得出更加有價值的推論。這也是往往互聯網行業對大數據應用最先發展和成熟一樣,來自企業外圍的用戶行為,社交,交易,行動路線等數據,來自各種傳感設備采集的視頻,流量,溫度數據才真正構成了一個大數據環境。
大數據關注的是全量數據而非抽樣數據,那么這帶來的思維轉變就是原來采用抽樣數據分析和統計的場景是否可以轉化為大數據場景,而需要采集全量數據一定不可能靠人工來完成,轉化的替代思維就是需要通過傳感網和各種傳感設備自動采集完成。因此抽樣-》全量-》傳感設備實時采集全量數據-》全量數據存儲和分析即構成一個完整的大數據思維的轉變。
分析評估或預測模型,類似交通行業的交通流預測或誘導模型,金融行業的信用評估和風控模型,醫療行業的疾病預測模型,保險行業的精算模型等,當我們對這些模型進行重新思考的時候會發現,原有建模和模型分析思路往往并沒有錯,但是在原來本身就會遇到數據收集困難性,如涉及到大量外部協同單位數據的開放和收集,涉及到用戶行為和習慣數據的收集等,而這些也正是大數據的重要應用場景。大數據下我們強調相關性,但是不能否定因果關系。其實很多時候實際情況還是我們首先在思考一個價值目標,然后再考慮圍繞這個價值目標所涉及到的所有相關因素和因子,再考慮這些因子間的相互關系權重,因素的采集和分析方法等。
不論是哪個行業的大數據分析和應用場景,可以看到一個典型的特點還是無法離開以人為中心所產生的各種用戶行為數據,用戶業務活動和交易記錄,用戶社交數據,這些核心數據的相關性再加上可感知設備的智能數據采集就構成一個完整的大數據生態環境。
單純的數據采集,數據存儲,數據處理往往都只是大數據中應用到的技術能力,而大數據場景的本質還是業務價值驅動下的大數據分析和挖掘,為了達到這個目標往往則涉及到數據采集,集成,存儲,處理,分析,挖掘等大數據的全生命周期管理過程。
下面談一些大數據的一些實際可落地性問題,只有將場景和業務價值想清楚了,再談大數據的各種解決方案和技術架構才真正有價值。現在打數據談論的很多,其實很多僅僅是一個海量數據的存儲和分析,用到了一些分布式存儲和查詢分析技術,不能給足夠說明就是一個大數據場景范疇。
首先可以看下最初談大數據的時候,我們談的最多的仍然是用戶行為分析,即通過各種用戶行為,包括瀏覽記錄,消費記錄,交往和購物娛樂,行動軌跡等各種用戶行為產生的數據。由于這些數據本身符合海量,異構的特征,同時通過分析這些數據之間的關聯性容易匹配某些結果現象。即有一堆的行為因子x,同時又有一堆的結果構成y,我們找尋到了某種相關性,有利于我們調整后續的各種策略。注意相關性重要,并不代表因果關系不重要,只是找尋因果關系往往更加困難而已。
為何一談到大數據往往就會涉及到個人隱私,這個是相對敏感的話題,要分析用戶行為就一定涉及到個人行為數據的采集,自然是侵犯到個人的隱私。包括對我們個人電腦上對瀏覽記錄信息收集和采集的軟件,如果沒有得到用戶認可也是很大的侵犯了個人隱私。
對于涉及到能夠采集單個用戶行為和消費數據的電商門戶網站或移動APP來說,我們可以看到,對于行為因子的來源往往是單一的,但是行為因子是依托在人身上的,人和人之間相互發生和關系和交互,這就使x因子能夠產生更多的關聯關系可以分析。那么對于類似淘寶退出的數據魔方和消費行為分析可以看做是大數據應用的例子,對于瀏覽行為中的定向推薦可以看做是大數據的場景。但是這里面還是存在一直無法突破的隱私問題,即類似淘寶是很難采集個人瀏覽京東,亞馬遜等其它電商網站的記錄的,也無法采集用戶的其它行為數據,即單一的x行為因子分析要得出高準確的相關性結論不是一件容易的事情。由于涉及到隱私和垂直網站門戶之間本身的競爭關系,這個數據要能夠融合短期也是不可能的。
那現在針對性營銷或廣告推薦如何在做?即采集個人瀏覽器上的cookies信息,這個信息是瀏覽所有網站都會記錄下來的臨時信息,采用這些信息來做定向廣告推薦往往會更加有效。但是這本身來說也是侵犯了用戶隱私,即非法訪問了用戶的瀏覽歷史信息。
為何Google能夠做大數據,基于前面的分析可以看到因為搜索本身往往是用戶行為的一個重要入口,即搜索引擎具備了實時采集多個用戶行為的x因子的能力。而這個能力往往是單個電商門戶網站無法做到的。但是搜索引擎做大數據的弱勢在哪里?即前面談到的用戶和用戶之間的關系較難建立,而更多是本身行為之間的相關性。從這個差異上也可以看到搜索引擎更加容易做交通,疾病,氣象等方面的大數據分析和預測;而類似電商平臺或類似騰訊更加容易做消費和娛樂類的大數據分析和預測。
智慧城市里面的大數據也是同樣的道理,當前的智慧城市建設究竟有沒有大數據場景?答案當然是有的,思路跟互聯網營銷里面的大數據分析思路是一樣的。首先是單個政府部門內部的大數據場景,這個短期反而很難真正形成大數據分析,原因在于針對的企業或個人用戶最終很難類似互聯網一樣形成某種關聯和協同;其次是跨各個職能部門的企業和個人行為和業務數據的融合和相關性分析,這個就現在本身一些職能部門的安全性要求,職能部門之間的部門壁壘,短期仍然是無法解決。這些問題都解決不了,智慧城市里面很難真正有大數據應用場景,對于政務資源目錄和數據能力開放,類似GIS等能力的開發頂多是大數據技術的點滴應用。
金融行業的大數據面臨的往往是同樣的問題,但是情況可能要好點,類似企業和個人的一些信用記錄現在有全國性質的統一數據庫能夠拿到部分數據。但是對于單個銀行來說,同樣是無法拿到用戶在其他銀行的行為記錄數據的,其二銀行本身在做很多信貸風險分析的時候,確實需要大量數據做相關性分析,但是很多數據來源于政府各個職能部門,包括工商稅務,質量監督,檢察院法院等,這些數據短期仍然是無法拿到。還有就是企業或個人本事日常產生的各種行為數據更難拿到,那么對客戶的風險性評估還是得借用原來的老方法而已。
電信運營商可以講是啟動大數據研究和解決方案比較早的一個行業,那么當前的大數據主要還是圍繞在BOSS領域,一個是大量話單數據的采集和高效預處理,一個是處理完成后基于用戶行為的分析和針對性營銷。電信行業本身難以解決的仍然是單一x因子來源,同時又沒有解決類似微信平臺一樣雖然是單一x因子但是建立了人和人之間的行為紐帶。那么運營商的大數據可以看做是分析和預測模型本身短期難以變化,但是在數據采集和存儲,數據分析性能和速度方面引入了大數據解決方案中的相關技術。
對于傳統的制造行業或快消行業,當我們談到大數據分析的時候首先還是涉及到能夠采集到用戶行為數據和評價數據,能否通過互聯網采集到更改的相關性因子的數據,這才營銷層面往往才有了大數據分析的基礎。如果這個無法做到,只有退回到只分析用戶的訂單信息,這種銷售分析往往已經很難拿到最終消費者和消費者屬性信息,那么很難得到有價值的分析數據。脫離了用戶層面,在企業內部還存在哪些大數據分析場景,這個往往是任何企業在應用大數據時候都需要反復思考的問題,否則企業做的往往可能只是傳統BI的內容或者連BI都談不上。
對于這個問題,根據大數據的思路延展一下,點滴思考如下,即我們來看下企業內部信息化系統本身支撐的業務運作和數據產生。對于企業內部信息化系統,業務部門人員本身是系統的用戶,但是重點卻不是分析用戶本身的行為,而業務用戶最終的行為會最終體現到業務事件上,那么企業在內部就會隨時隨地的產生各種業務事件,而企業本身是有業務績效目標的,那么業務事件這些x因子之間,各個x因子和績效目標y之間究竟有哪些相關性分析,能夠快速實時的得出哪些推論就有價值了。這個價值本身就是改善業務運作效率和降低運作成本,通過能夠進一步的實時分析和預警。