隨著大數據概念深入人心,越來越多的企業開始認可數據存在價值。挖掘自身數據價值、獲取外部數據是企業兩大需求。但在實踐中,企業發現兩大需求存在同樣問題,不論是自身數據還是外部數據,原始數據與有價值數據之間存在鴻溝,自身缺乏填平鴻溝的技術手段。
新興大數據公司成為解決問題的答案,他們具備處理數據的經驗和技術,可以將原始數據轉化成能為業務提供支持的數據。數據服務產業鏈就此形成。
整個數據服務產業鏈可以分為三個部分,從上游的數據源到中游的數據服務商,再到下游的企業級用戶。因為大數據公司大多成立時間較短,自身業務產生數據有限,一般是作為數據源和企業級用戶的橋梁,處于整個產業中游。做數據加工和數據應用,挖掘原始數據的價值,為企業業務提供數據支持。
在整個大數據產業生態中,數據服務是生態中重要一環,下接底層技術平臺,上接頂層應用。
數據源眾多,有價值數據源在巨頭手中
政府的數據大部分還尚未被挖掘,目前應用比較多的是公安數據,明略數據、中奧科技等公司在與公安合作,挖掘數據價值。其他政府機關的數據多數還處于沉睡階段,九次方等公司正與地方政府合作,推進政府機關大數據發展。
傳統企業的數據應用程度與該行業的信息化程度有關,像金融、電信等行業信息化程度較高,其數據源價值很大。像醫療、制造業等行業的企業內部數據庫尚未實現互聯,大數據尚處于起步階段。這點可以從大數據公司重點涉足的行業看出,多數大數據公司選擇將銀行、運營商作為切入點,醫療、工業大數據公司相對較少,而且體量較小。
互聯網數據乍一看是開放程度最高,應用范圍最廣的數據源,但實際上互聯網數據中最具價值的部分都被BAT等互聯網巨頭所擁有,目前幾乎不對外開放。通過爬蟲等方式獲取的數據價值非常有限。不過隨著移動互聯網興起,移動設備承載的用戶行為數據價值被挖掘出來。
目前來看,最有價值的數據源是政府、運營商和BAT,BAT的數據完全不開放,政府的數據同樣開放程度有限,而運營商的數據開放程度最高,有十幾家大數據公司與運營商合作,可以接觸到運營商的數據。
大數據公司承上啟下
數據加工是指將數據源的數據進行清洗、整理,而數據應用是將清洗后的數據賦予行業屬性,使其能直接為下游客戶提供幫助。
目前,數據堂、聚合數據等公司專注于數據加工,而TalkingData、集奧聚合等公司同時在做數據加工和數據應用。
數據堂、聚合數據的業務比較類似,他們將不同渠道的數據進行清洗、整理,將數據進行分類,做成標準化API接口,提供給做數據應用的公司,一般來說,他們并不直接面對企業級客戶。工作有點類似于將小麥加工成面粉,做面包的工作交給下一層公司去完成。
TalkingData、集奧聚合不僅僅做數據加工,還在探索數據的場景應用。他們直接服務企業級客戶,他們在處理數據的過程中就需要考慮客戶的需求,從場景應用層面考慮數據挖掘和數據分析。工作是將小麥加工成適合做面包的面粉,同時做面包。
上述兩類公司的區別是,數據堂、聚合數據的業務更貼近數據源,而TalkingData、集奧聚合的業務更貼近企業級用戶。
大數據交易中心如雨后春筍般出現
提供數據服務的,除了大數據公司外,大數據交易所也扮演重要角色。自2015年4月貴陽大數據交易所成立,各地大數據交易中心如雨后春筍般冒出。短短一年時間,就出現了長江大數據交易中心、華中大數據交易中心、上海大數據交易中心、浙江大數據交易中心等近十家交易中心。
交易中心要么是地方政府與大數據公司合作成立,如貴陽大數據交易所,要么是由上市公司牽頭建立,如浙江大數據交易中心。從目前來看,大數據交易中心還處于探索階段,數據交易量不大。截至今年8月,成立一年的貴陽大數據交易所的交易總額剛剛突破1億元。
數據特點決定數據是非標商品,交易存在信息不對稱現象
經過幾年發展,大數據不再僅僅是概念,開始逐步落地。大家不再迷信數據,對數據的看法開始回歸理性。愛分析認為數據具備以下幾個特點:
一. 絕大部分數據價值有限。
無論是政府、傳統企業還是互聯網,每天都在產生TB級、甚至PB級的數據。這其中大部分數據對企業級用戶而言,是沒有價值的,或者說價值有限的,真正能為企業提供幫助的數據是極小一部分。
每個人都知道數據源越多,數據維度越廣,數據對業務的提升越大。但在實際應用中,還是需要摒棄掉大部分數據,集中研究很小規模的數據。一方面,盡管Hadoop、Spark等開源技術已經大大降低了數據存儲、處理的成本,但面對海量數據,仍然有些力不從心;另一方面,大數據在各行業的應用尚處于探索階段,很多數據的場景應用尚未被發掘。
上述兩個原因使得絕大部分數據價值有限,這導致數據存在一定聚合效應,有價值的數據源集中在幾個行業,甚至是幾個公司。
二. 數據與場景應用相結合才有價值。
經濟下行,業績不樂觀,企業變得越來越務實。像前十年大量購買IT設備那樣在大數據投入是不可能的,企業更加關心數據能帶來什么價值。直接把數據給企業是沒有用的,需要將數據與企業的業務場景結合起來,使企業真正看到這些數據能為其帶來什么,這才是數據的價值。
從這個角度來看,脫離應用場景空談數據價值是沒有意義的。與場景結合的越緊密,數據價值越大,企業級用戶付費意愿越強烈。
三. 數據具有時效性,越久遠的數據價值越低
很多人將數據比喻為石油,兩者的確有很多相像之處。但是數據與石油有一個非常大的區別,數據具有時效性。只要保存得當,一年前的石油和剛開采的沒有本質區別,而一年前的數據價值遠低于最新數據。
以精準營銷為例,通過數據挖掘找到用戶感興趣的產品,過段時間很可能用戶已經購買該產品。這時,原有數據已經失效,用戶畫像發生變化,需要對最新的數據進行分析,找到新的需求點。
因為上述三個特點,數據是非標準化商品。如果雙方僅限于數據交易,沒有更加深層次的合作,數據就脫離應用場景而存在,如何進行定價是最大問題,如前文所述,數據只有在應用過程中才能發現其價值。
除以之外,不同數據對更新速度依賴程度是不一樣的,在各場景應用上數據時效性也有很大差別。因此,在判斷數據價值上,時效性對數據價值影響有多大是難以估量的。
另一方面,數據交易過程中存在信息不對稱的現象。數據買方如果不實際使用數據是無法判斷買到的數據是否為真正有效數據,現實與想象中有多大差別是不確定的。另一方面,買方很難用一種簡單方式去判斷獲得的數據是否為最新數據,同樣需要在應用過程中去鑒別。
目前數據在各行業的應用還處于探索階段,隨著行業發展,數據在各行業應用成熟,數據能帶來多大價值會逐漸達成共識,數據將逐漸成為標準化商品,交易過程中的信息不對稱將大大降低。
在實際操作上,很多有價值的數據源都是敏感數據,如何進行脫敏處理,如何實現交易是另外一個大問題。針對這樣的問題,目前大數據公司采取的方式是將自身的算法架設在數據源的機房,通過原始數據提煉出數據標簽,完成數據加工的工作,像數據堂、TalkingData、集奧聚合都采用這類方式。
大數據交易中心還得靠政府
大數據交易中心不僅僅是作為民間數據交易的橋梁,更是作為政府數據開放的橋頭堡。目前來看,政府數據的開放存在政策問題。盡管國家近年頻頻出臺大數據相關政策,但是中央關于政府機關數據開放的具體管理辦法還未公布,地方政府對開放數據存在疑慮,做法非常謹慎。
如果大數據交易中心僅僅交易一些民間數據,交易所的作用相對有限。正如前文所言,大部分數據價值有限,數據源相對比較集中,數據買方可以直接與數據源進行合作,無需通過交易所這個平臺實現。
近期,貴州政府制定發布《政府數據 數據分類分級指南》等4項政府數據系列地方標準。這說明一些地方政府已經開始在政府數據開放上進行嘗試,相信國家層面的相關政策為時不遠。
數據與應用結合當前發展最佳
隨著技術發展,數據加工會更趨于標準化加工流程,同業比拼的不僅僅是技術實力,對接的數據源數目和質量更為重要。目前這一領域還屬于早期圈地階段,很多行業的數據還未被有效存儲、采集,未來隨著各行業信息化成熟,高質量數據源是最核心競爭力。這個領域會逐步淘汰小公司,最終剩下幾個大公司,新公司進入門檻越來越高。
這領域先發優勢比較明顯,越早進入市場,越容易對接更多的數據源。很多掌握數據源的企業最初是不清楚自身數據源價值,因此早期獲取數據源成本相對較低。數據堂深耕這一領域五年時間,現在是這一領域最大公司,數據源通過眾包、行業、政府及互聯網四個維度進行獲取,與同業公司相比優勢明顯。
數據應用領域發展前景更好,這些公司的優勢不僅僅是技術和數據源,還有對數據基于場景應用的理解,各家公司為企業級用戶提供的服務具有差異性,市場競爭相對良性。另一方面,數據應用市場規模前景巨大,目前僅僅是冰山一角。以銀行客戶為例,目前大數據公司為銀行提供的主要是風險控制、精準營銷等對外業務層面,未來還會涉及到銀行客戶的內部運營效率提升等方面。市場規模大、業務差異化大,使得各個垂直行業中都會產生巨頭公司。
從目前行業發展來看,數據應用領域的公司增速更快、體量更大,TalkingData、集奧聚合估值都超過30億。這兩家公司都是選擇以金融、地產作為切入點。金融、地產行業一方面公司自身信息化程度高,對數據非常重視,另一方面大型企業居多,付費能力強。