大數據的門檻
TBO(旅游商業觀察):“如果你只有一堆人的電話號碼,這可能沒多大意義。但像攜程的數據,比如所有人提前預訂、搜索、瀏覽、點評的信息等,這就是有價值的。但更深層的核心是,你能不能在某個產品上使用到這些數據,而且確實有幫助。”眾薈數據智能事業部總經理焦宇對TBO(旅游商業觀察)說。
美團云大數據平臺負責人對此表示認同,“首先要弄清楚擁有的數據是否有價值,是否有人愿意為其買單。另外則是源數據的豐富度,是否能夠為數據價值的發揮帶來補充和完善”。
顯然,數據收集的目的并不單單是把數據集中起來,最終還是要在實際運營中發揮作用。擁有數據只是開端,如何深入分析、洞察數據彼此之間的關聯,才是大數據應用的關鍵,這也是眾多手握大數據企業的分水嶺。
不過,在這個過程中,有一個不容忽視的問題,那就是數據的質量問題。“錯誤的輸入,換來的必然是錯誤的輸出”,螞蜂窩大數據技術總監韓鑫在接受TBO(旅游商業觀察)采訪時就特別指出了這個問題。
“真正決定數據挖掘成敗的是數據本身的質量,對于算法的合理使用和優化反而是次要的。由于大數據的興起,我們很容易獲得龐雜的數據;然而單純地指望從高深的算法中去獲得我們想要的信息而忽視數據本身的質量,往往只能是空中樓閣。”
對大數據而言,表面上看數據是越多越好,因為更多的數據可以產生更能擬合真實情況的場景,但同時更多的數據也產生了更多的噪音——所以單純的數據的量的增加并不能提高計算的精準度。
因而擁有高質量的數據,要遠比握有一堆龐雜的數據更有價值:這樣既能減少數據挖掘的難度,也有利于提高數據挖掘的精度。但是,這就是大數據的核心門檻嗎?
韓鑫認為:“建立完整的大數據體系還需要兩個重要的因素,業務的豐富程度和數據思維的融入。”
焦宇從自己的實踐經驗出發,談了自己的看法:“對一個特別好的產品經理來講,大數據的門檻首先是要理解這個東西到底是什么;第二建模能力要強。從這兩方面說,人才相對都是稀缺的。比如有些公司是有大數據的,但要找到很牛的人來做這件事情,雖然理論上講是可以隨時找到的,但事實上卻很難。”
“第一個是大數據。第二個方面,有人把數據比喻成‘石油’,有石油寶藏還得有機器、工具把它挖出來,這個工具就是機器學習。第三方面是計算能力的進步。工具再強,沒有非常強的計算能力,還是跑不動的。”滴滴研究院院長何曉飛則給出了這樣的答案。
數據挖掘的難點
數據挖掘,不像收集數據填幾張表,問幾個問題就能輕松實現。它的專業性相對較高,運用的知識、技術難度也明顯加大。因而大多數的數據挖掘基本是由專業人士或專業團隊來做的。
另外,建模的成功與否,對數據呈現的結果也有非常重要的影響。模型不同,結果也往往會出現差異。
“任何人都能搭出來一個模型,只要搭出模型就能有結果,但這個結果是不是反映真實世界?因為數據之間的關系,并不是直接的線性關系,因此模型可以非常復雜。所以你先得知道你要解決的是個什么問題:從統計上來講,是哪種類型的問題,它有什么樣的特性,你在數據上的采集有什么局限?然后再找到跟這個問題最接近的模型。”焦宇說。
“數據挖掘的難點在于,主要數據收集和最終應用之間的相互關聯卻又矛盾的關系,這類似于‘先有雞還是先有蛋’的問題。兩者之間相互影響相互補充,導致其相對其他類別的程序開發而言,是更為漫長而又復雜的過程。” 韓鑫說道。
無論是焦宇所說的模型,還是韓鑫所說的算法,其實都在強調一個重點:根據實際情況變化對模型和算法做出相應的調整。沒有固定的規則,只有時時更新的數據和不斷變化的情況,所以運用的規則也要因時調整。
美團云大數據平臺負責人則認為,如何拿到“規范的數據”才是真正的難點所在:“新美大每天產生p級別的數據,包括大量的商戶、用戶和交互數據;每天通過hadoop、hive、spark、storm等大數據工具進行批量和實時的清洗,才得以形成規范的數據。”
然而,也許最難的一點還是在于那個最實際的問題。技術快速發展,提供了像應用統計方法、事例推理、決策樹、規則推理、模糊集、神經網絡、遺傳算法等諸多方法來處理信息,這既降低了數據挖掘的難點,同時也提高了數據挖掘的效率和精準度——但所有的這些,都需要不菲的資金。
許多人可能都聽說過那些使用大數據的輝煌案例:Facebook每天要存儲大約100TB的用戶數據;NASA每天要處理約24TB的數據。那么處理這些數據所需的成本是多少呢?
按照亞馬遜Redshift的定價,NASA需要為45天數據存儲服務支付超過100萬美元。而根據國外的一項調查,大多數企業的CIO稱他們的預算支付不起大數據部署的成本,數據存儲和處理的成本實在太高。
大數據真的精準嗎
“對一個具體區域來說,滴滴數據大腦已經達到提前15分鐘實現超過88%準確率的預測。根據預測結果,就可以選擇要不要對司機運力進行調度,使在附近的司機可以提前到達運力緊缺的區域,以緩解可能發生的擁堵。對于出行領域而言,預測的是未來的交通情況,以幫助智能調度。”滴滴研究院院長何曉飛曾這樣對外表示。
這是一個正面案例。反過來看,如果大數據無法為企業營銷、決策、運營找到合適的解決方案,那它的應用前景自然不會被企業看好。所以大數據到底“準不準”,從最初就是商業力量最關注的點。
比如在《黃金時代》上映前,百度就對其票房做過預測,認為這部電影十一黃金周的票房會在2——3億元之間,當時也有不少媒體都認為百度的預測過于保守。實際情況出來后卻讓人大跌眼鏡,上映半個月票房還沒過5000萬。
作為互聯網公司的排頭兵,百度擁有的數據量其他企業自然是難以匹敵的,但出現這種結果,卻不能不令人深思。
“大數據歸根結底還是歷史數據,是否能用于預測未來,既要看具體的問題,也要看從歷史數據中分析出來的規律是否能在未來重演。仔細分析問題,梳理規律適用的條件,充分理解數據、理解技術的局限,做到正確的使用大數據的成果,才能有對現實起到真正的作用。”韓鑫說道。
事實上,單純來看一個結果并不能反映出預測的準確與否。焦宇表示,“就像大家都知道,采取最佳玩法的情況下21點的勝率可以提高到49%。但這個概率對于某一人某一盤來講其實是沒有意義的,只有當10萬人同時進行21點游戲,最后你會發現所有人的獲勝概率就是49%。”
焦宇所供職的眾薈信息,會通過數據分析為酒店提供收益管理預測。焦宇表示,對于真正成熟、有經驗的收益經理來說,并不需要提供給他一個代表最終結果的數字——企業只需將整合的數據給到這些收益經理,他們自己可以通過數據制定出一個最合理的價格。
中小企業的數據優勢
從另一個角度來看,大數據預測的基礎還是需要一定量的數據。但究竟多大的數據量才算是大數據?這個問題業內并沒有一個統一的劃分標準。而中小企業也掌握一定量的數據,那么與BAT相比它的優勢又在哪?
阿里研究院高級專家程欣指出:“中小企業的大數據主要是會員數據和訂單數據,用途是crm和定價分析,但無法分析不是自己的用戶。”每一類企業都有自己的短板,最明智的做法不是去一味的補齊短板,而是要充分發揮自己的優勢。
而數量和豐富性是大數據的兩個面。BAT雖然在數據量上占據優勢,但卻在豐富性上受到局限,甚至并不具備垂直領域UGC所具備的大數據能力。中小企業則可以充分利用自己在垂直領域里深耕的優勢,將數據的豐富性提升上來,從而獲得差異性的優勢。
所以,中小企業對自有的數據進行深耕,在數據挖掘方面也并非就一定比BAT等大型企業差。
美團云大數據平臺負責人認為:“用大數據是希望能夠有更全面的信息幫助企業決策,而不是為了用大數據而用大數據。應該反過來看,企業的數據內容,是否能夠為某個行業的深度應用帶來補充。所以中小企業的數據,這里我不想提‘大’這個字,有點過于強調概念了,關鍵是看內容層面是否有垂直化的信息補充,采集到BAT所沒有的數據。”
數據挖掘技術的諸多門檻,以及建立數據挖掘部門所需的投入,也決定了并非所有的企業都能擁有數據挖掘能力。數據挖掘能力要與公司規模與發展階段相匹配,在產品并不成熟的情況下,從現有人員中根據業務需要兼職去做會是一個不錯的開始,并不一定需要配備獨立專職的團隊。
在業務逐步走向成熟階段,再逐步建立專業化的數據團隊,則是一個更現實辦法。
“目前國內的公司往往在B輪左右,開始搭建自己的數據團隊,開始具備初步的數據挖掘能力了。但基于此前所說的大數據‘門檻’,并非所有搭建數據團隊的公司,都可以被稱為大數據公司。”韓鑫說。
不過韓鑫坦言,大數據就像是好的武器,到底能否有效、規模化的在各個戰場取勝,在于如何分析戰場形勢,合理的使用武器達到戰術目的,形成戰略性勝果。
想真正的起到規模化的效果與作用,需要公司全員的努力,不能僅僅期待建立一個數據團隊。要在日常產品設計研發運營的各個環節,從基本的統計、分析入手,逐步形成全公司全員性的數據化思維,讓數據驅動運營、數據驅動研發、數據驅動產品等深入骨髓。
公司的數據體系建設也要圍繞各個業務各個職能角色進行設計與搭建,讓所有人都能參與進來,每個人成為公司數據能力的一部分與推動者。