如果想要認識飲料店的可愛店員,可以發揮福爾摩斯般的洞察力以及聯想力,依賴網路足跡找出資訊。時至今日,如果要了解「一大群人」的消費習慣或是更多更精細的行為預測,亦可以透過巨量數據的分析,繼續安穩的待在螢幕前作鍵盤福爾摩斯。本次【M.I.C. ╳ IBM 大數據講座:鍵盤福爾摩斯】邀請到核桃運算創辦人薛文蔚以及IBM資深顧問許佩薰 Patience,帶領我們學習鍵盤福爾摩斯們如何突破盲點,一次了解大數據的前世今生與未來。
許多人在這個大數據的熱潮上一直有所疑惑:難道大數據跟以往所做的分析有任何不同嗎?Patience提到過去應用的數據量多在交易等級,例如某客戶在銀行一周交易五次就算得上大戶;現在只要隨身攜有小米手環或是smart watch,就可以大量取得運動時的心跳、唿吸頻率等健康照護的監測數據。也就是說大數據在跨產業上的數據搜集應用能夠更加得心應手。
大數據有 4V之美──數據量成長越來越多(Volume),文字、圖片、影音等數據多樣性(Variety),價值高(Value),輸入和處理速度快而且數據不斷行成(Velocity)。透過網路得到的大量數據,數位通路的數據該如何整合應用到先前實體通路等等,現在電子裝置搜集數據需要更特殊的演算法加以分析。這些都可能成全未來新興產業上分析的需求。
數據科學家在產業界不同領域的百種應用
Patience舉出新加坡交通的適應性控制為例,集時分享處理大量路況資訊,再送到前端處理視情況調整紅綠燈,其判別度則可能跟基地臺的密度有關?;蚴菤W洲風力發電廠商(VESTAS)欲作投資,則需要得知土地前十年的氣溫、雨量、土壤硬度等,最后算出最省成本而最大產能的地區。
另外在健康醫療上,可以藉由過去累積數據推測追蹤,具有哪些特定基因、生活環境的小朋友在是否將有潛在病徵出現。Patience也提到之前,IBM 的超級電腦"Watson"參加益智節目并贏得比賽,可不只是Google后回答這么簡單而已:首先它必須了解主持人的問題,之后再去搜索、過濾、計算大量數據之后,得到正確答案(像人腦應用,而不只是單一機械化的運作)。Waston的演算方法亦應用于其他商務用法,前中后都有不同的應用主題和處理,來判定什么產品容易成功。
實際面對客戶分析需求又是怎么樣的情況呢?比如說Patience要為電信業者作「客戶貢獻度」或「流失度」模型。有些情況可能電信業者本身已知(如每當租約到期最易流失客群),所以他們在解釋數據時必須想方設法分析出其他沒被發現的、跳脫本來業務背景知識就已經知道的事情。像是銀行金融工業的數據探測(data mining),如果想知道用戶何時可能容易剪卡,他們就可以歸納出正瘋狂兌換點數的用戶較易有該行為。
就零售業來看,有個很有名的例子討論「為什么買啤酒就要買尿布」, 用客戶購買行為分析來支持銷售決策,而不是廠商或店家自己覺得哪些商品比較好賣。或是健康紀錄偵測可以設備搜集行為,作預先警醒機智;此外,工廠里從進料制作到產出,都有可能透過數據做決策,像是臺積電若要探討良率,就可以以這些分析過程連結出塬因。
分析流程
首先搜集巨量數據,來源可能有各種社群、通路消費或金融紀錄,再依據不同數據性質決定分析方法。必須考慮如何對應數據來源、做出可以支持分析的結果,甚至是需要什么手段、應用于何種客戶等等。最后結合到客戶端,根據目標客群(targeted audience)及一致化的行為了解模式,透過其慣用通路讓客戶知道自己是被了解的。
舉大賣場、零售的4W分析為例:
Who(賣給誰):高齡化地區比較有機會在上午10點到下午3點的一般上班時間,由阿公帶著小朋友逛賣場,一手買人參飲一手買多多。
What(賣什么):洗碗精貨架旁邊應該擺放沙拉油,因為碗盤油膩時才會需要洗碗精;面包店根據天氣來決定每天該準備什么樣的產品(材料或成品受天氣保存影響大)。
When(什么時候賣):什么時段7-11需要補充洗衣粉?(誰會晚上十點以后在7-11購買洗衣粉?)可能是晚晚下班通勤后回到家上班族,發現家中沒有洗衣粉。
Where(在哪里賣):臺北市通勤族在同一家連鎖分店消費的距離大約在10公里內,也就是辦公室與住家距離(客戶在分店固定購買行為,可以分析客戶忠誠度)。
客戶的購買力、貢獻度、忠誠度、通路使用、行為變化等等,根據店家所搜集的數據完整度與即時性,進而設計不同分析模式。應用在保險業的話,若欲在不同面向中找出特徵和刺激因子,來判定客戶幾年后是否會再回來購買保單,可以看看過去購買的保單等級:諸如近十年購買4至8張保單者或購買投資型定期定額保單,顯示有定期投資行為就很有可能會再回購保單。大數據甚至可以推測出晚上十點到早上五點的車禍,可能是人為詐欺理賠的機率高--因為證據證人更不容易找到。
前面提到的應用傾向公司持有的客戶數據,然而現在電子消費型產品的蓬勃,越來越多著重分析網路社群上的文字數據,來「傾聽鄉民的聲音」。 Patience也說了,關于很多人詢問的,現任臺北市長「柯P」是如何利用網路了解民意。根據社群網路、關鍵字分析,他可以得知網友們對于政策的討論方向或是休閑喜好,來決定應該要制定哪些政策、舉辦哪些活動或是說哪些話。
大數據分析師們,不論在學界或業界上面對需求者時都必須「傾聽」。究竟在面對客戶時如何聽出背后的問題與需求?Patience提到,必須先了解需求者業務背景現況與規則,以此提出適用的結果討論和建議才能幫助客戶。常言道「見山不是山」,設身處地了解不同角色的需求與想法,針對不同的問題「看穿它」,并找出解決方法。
除了源數據,設計開放問題(open question)得出適意得到的方向、結果,并且大膽假設,小心求證;之后再思考有什么面向可以呈現。最后Patience說明困難點還是在于跟客戶的溝通,「不能只回答他塬本第一層的問題,大數據必須告訴他,怎么優化決策和利用資源對他更有利?!?/p>