10月20日報道關于“大數據”你一定聽濫了,但也沒搞明白究竟是怎么回事。盡管你無時無刻不在感受到它帶來的“某些”便利:
比如一周前你在某個社交網站上做面試測試題,當你面試完時才知道,那份測試題真正的意圖是匹配你與團隊性格的契合度有多高。又如,在十一黃金周前你接到某個購票應用推送的信息,上面提示你提前16天通過電話訂火車票,要比同日在網上購票成功機率高。當你真的打過去時,發現電話預訂系統正處于繁忙狀態,而不得不等了2小時后再致電,才訂票成功。但好過同一時刻被卡在12306網站上而付不了款。
大數據正在滲透各行各業,甚至能跟你考試能力測試、患上某種疾病的機率等非常生活化的場景應用都發生緊密的聯系。今后大數據在我們的生活中就像是水和電一樣,讓社會整個信息質量更好、讓信息利用效率更高效。
在這個系統中,數據的采樣與后期分析仍需要靠人為力量去完成。
眾包讓數據采樣更自動化
“今后人工干預會越來越不必要,至少在前端采集數據是這樣。”產品經理James向騰訊科技談到,現在很多數據的采集都來自與用戶的交互行為,比如搜索、微博互動、又比如“喜歡”、“贊”、“丟掉廢紙簍”這類在應用中小的設計,只要用戶主動完成,在后臺便可推算出數據質量。
洋蔥價格的高漲起落決定了印度通貨膨脹率的趨勢,一家名為Premise的創業公司,每天通過700多個安裝了自己開發應用的用戶來實時上傳各地區的不同洋蔥零售價格。
該公司的聯合創始人大衛-斯洛夫(David Soloff)認為,這是一種能夠實時感知全球金融動態的有效渠道,因為當地商店一般都會根據經濟環境的變化(其中包括批發價格和消費者信心等因素)及時調整商品售價。
“Premise所提出的分析方法已經證明,根據自己所收集的數據在部分經濟環境中提前4-6周給出通脹指標預測。大家完全不必再等待此前那種每月一次的‘經濟天氣預報’了。”斯洛夫強調。
而對零售門店來說,貨架上品牌的陳列直接決定著銷量,如何讓品牌在流動的顧客中一直占據較好的陳列位置,讓這項工作既需要耗時耗力,也非常瑣碎。
為此一家名為Quri的公司,通過開發一款名為EasyShift的應用,讓用戶有償貢獻時間去精力去完成這項數據的收集。用戶只要領取應用下達的任務,在指定的地點拍指定場所的照片,上傳到Quri的服務器上,便可領取相應微薄的報酬。
EasyShift的理念不難理解:現在大多數用戶都隨身攜帶智能手機。品牌商想要了解自己的商品在大型零售店的展示情況、評估競爭對手的動態、報告斷貨的產品和定價信息、監測促銷和產品發布情況。EasyShift向消費者付費,讓他們在購物時順手收集這些信息。
在日本大地震中,意外地運用了某汽車品牌車載導航實時的可視化數據,打通“綠色生命通道”的項目“連接生命線”。
該項目負責人菅野熏是日本電通創意設計中心高級總監,在日本大地震前他接受了某汽車品牌的合作項目。該項目為在某路段行駛了哪一輛車,什么時間行駛,位于哪個經緯度,以多快的速度朝哪個方向行駛等,每分鐘大約有十萬條的動態數據都會記錄在一個車載導航數據庫中,菅野熏將這些數據集成一個程序內,并以日本地圖的形式展現出來。
在日本發生地震時,這些導航數據都能臨時派上用場。
“地震時,通訊信號都不太暢通,人們只能夠通過網絡確認親人朋友是否平安,我們所面臨的挑戰就是如何將救援隊去送往災區。”菅野熏說道。
導航數據本來用于交通擁堵情況而搜集車輛的行駛數據。“從另一個角度來說,有車輛行駛的數據說明,道路是可通過的。”菅野熏談到,地震后一旦有車輛行駛,就用綠色去進行標注,形成一條通行軌跡。
與此同時,團隊還在Twitter上實時組織用戶去發布目前全日本各地路況與路標信息,綜合兩類信息后,將綠色生命通道數據于地震發生20個小時后發布在網上公開下載。除了網頁端外,編程人員也快速開發了移動端。在當時的危機之下,信息擴散的力度是極快的,很快在在網站和手機應用中,多條綠色的線路都逐一呈現,為救援隊快速到達提供了參考。
大數據時代人工干預仍有必要
機器學習在大數據中確實占據主導作用,但真的不需要人為干預嗎?例如,你已經習慣泛濫在身邊網絡營銷,但你真的認可靠單純的數學模型與規模數據分析的營銷推薦嗎?
ZestFinance是一個利用機器學習加大數據分析為 payday loan行業(發薪日貸款,類似高利貸的短期高利息借款)提供客戶品質分析的平臺。
與傳統的分析方式不同,ZestFinance可同時運營多個模型對海量數據進行分析來判斷各種可能性,再加上越來越多的數據來源和種類,然后這些信息被轉化為幾萬個可對借貸者行為做出測量的指標,如詐騙幾率、長期和短期內的信用風險和他的償還能力。最后各模型的結果被整合成最終結果。這個平臺可在幾秒間為用戶提供最可靠的結果。創始人Merrill 說:“我們更傾向于通過把機器學習機制和人工干預結合到一起。”
例如在醫療領域,機器學習基礎上的數據分析就遠遠不夠。“因為機器學習能推算出一定比例的概率,但無法達到精確、精準。”春雨掌上醫生CTO曾柏毅向騰訊科技舉例,如對于某種疾病模型的設計,是通過調取現有數據庫中所有相似度90%以上提問,將問題結果分析匯總,制作疾病發生概率模型,并將每個問題醫生的建議,總結出“無大礙”和“去醫院“比例,為患者提供直觀的數據參考。
“但這也是取一定比例的概率,是用于用戶自查。可是否能精確到病人真的符合這種病癥,還是需要人為分析(醫生診斷),我們這些在后臺的數據分析員也要去再排查、甄別數據的準確度。”上述人士談到。