未來是大數據的時代,大數據因此成為一項國家的長遠發展戰略。近兩年的政策利好,使大數據市場再度迎來了新一輪的發展高潮。像“44ZB(澤字節)”這樣的驚天數字(業界流傳的截至2020年全球大數據規模)因此反復出現在各種大數據會場的電子屏上。
一股焦灼的情緒隨之在全產業漫延,還沒弄明白怎么搭上“互聯網+”的快車呢,大數據又成了另一個新的困擾,一位行業用戶曾感嘆,“出去不說兩句大數據都感覺自己落伍了。”而不少醫院行業用戶直接的反應就是,“小數據還做不好呢,怎么做大數據?”
大數據該何以計量?
隨著社會信息化發展邁入3.0,很多企業對IT的投入和選擇已經跨過了過去“高大快上”的盲目決斷做法,轉而更為理性和審慎。比如談大數據,企業決策者和IT負責人最先考慮的是企業自身的數據規模到底在一個什么量級。
從目前了解的情況看,很多企業,特別是傳統行業企業一年的生產和業務合并數據量級多處于TB、GB的規模,比如以某一線城市為例,該市級財政部門的數據不到8、9個TB、某地鐵運營公司在50多個TB、某高速公司集團公司在TB級、某銀行城市分行數據也不過TB級、某三甲醫院是GB級、某大型制造企業也才是GB級……
誠然,數據規模的現實情況距離產業預期相去甚遠,一方面與企業所處行業有關,比如電商、運營商或新媒體這類面向公眾2C的企業數據規模增長較為明顯;再一個也與企業對數據存儲成本的考量密切相關。比如上述行業企業除了應國家要求的數據存儲年限外,一般企業數據留存也就三年左右,甚至更短。而且對近年數據和歷史數據采取分開存儲的辦法,比如最新數據與近年數據在企業最新、最好的IT平臺留存,三五年以后的歷史數據被轉至舊系統沉積。
清華大學數據科學院工業大數據中心總工程師王晨此前在北京工業大數據創新中心成立大會上從技術、業務和基礎三個方面談工業大數據的戰略思考時特別提到數據的基礎。他認為,“數據就像我們今天流過的河,流過去就再也沒有了。很多企業想做分析,可它的數據平臺大概只能存三個月的數據。這個不夠!我們至少需要一年春夏秋冬,才能知道一個完整周期,可能有時一年都不夠,需要兩到三年的數據。”
如王晨所言,數據是企業開展大數據研究和應用的基礎,應對大數據,我們所需要的數據基礎可能不止兩三年,甚至更長久的數據積累。再者,不同的行業企業,其業務特點使得需要研究的數據周期都存在很大差異。
那么,數據基礎又該如何確定?
國家衛生計生委科學技術研究所副主任技師董敬認為,大數據如果僅僅比誰的數據量大,占的硬盤空間多,是沒有意義的,“應該比的是它所承載的內容的多少。但這樣做又不好計量,因為計量是需要有相當一部分專業知識的,結構化數據后面的定義很長,這個定義很專業,非專業人士很難理解。所以現在很多數據統計比較的是字節數。按字節數來統計則容易很多,容量也很輕松就上去了,而且還都是真實的。但它到底有多少信息量,這得另議。因此,關鍵是看這個大數據的概念到底要用在哪兒,怎么用。”
分析路徑受限
面對產業的大數據熱,很多企業用戶,尤其是傳統企業用戶持觀望態度的不在少數。在他們看來,是否要切入大數據,以及怎么做大數據,還得先要明確“怎么才算是大數據”。
當然,市場近兩年也不乏很多大數據分析實踐應用的案例。但那是否就是真正意義的大數據應用呢?中國泛海控股集團系統運維總監王正望表示,一些企業在其內部利用數據所做的一些統計分析工作,嚴格意義上不能稱之為大數據,而是一些數據的聚合,“原因在于一個是樣本不夠;再一個談大數據,首先是個人相關維度的東西都應該能抓取到,不能只從一個維度或頂多兩個維度,就說自己是大數據,怎么也得跨兩個維度。”在他看來,所謂大數據,要能夠不斷注入新的內容,“怎么能夠源源不斷地將數據匯總過來,滿足人們隨取隨看。當然隨時也不是無限制的。”
另外,先不說數據的意義如何,單從海量數據的堆積來看,想要做好大數據分析處理也并非一件容易的事情。
目前,我們對大數據所能采取的分析處理辦法,不外乎兩種方式:一種是數據轉換,即先將異構數據轉為結構化數據后,再利用結構化數據時代成熟的分析工具去處理;一種是無需轉換,直接對異構數據進行分析處理,后者面臨的最大問題是,已存的分析工具主要都是針對結構化數據的,對異構數據的分析工具也有,但尚不成熟。直白的說就是以現有技術水平還無法對大數據進行理想化、成熟地分析。
董敬認為,現在談的大數據實際是拓展的異構數據。而異構數據和結構化數據是有本質區別的。“結構化數據是數學的、數字的,它是yes和no的關系,很明確。我們所有東西都是要進行數學描述的,不會將‘白砂糖’三個字打進去。而是先得定義1=白砂糖,2=紅砂糖,然后把1和2輸進去,才能進行計算。所以,結構化數據不只是占用硬盤空間數,它從分析方法到信息承載量,都很成熟。”
他認為,客觀講,異構數據的信息量沒有結構化數據的多。比如“白砂糖”三個字,按字節算是六個字節。但在結構化數據里,比如它等于2,2只有一個字節,卻代表了“白砂糖”這樣六個字節承載的內容。物理上看節省了五個字節,所以它貯存的效益更高。另外,因為結構化數據直接可以帶各種各樣的線性模型,只要一上數據公式就能出結果。
“而現在的異構數據主要是一些音、視頻和圖形圖象。這些內容除結構化數據能夠承載的東西外,要對它們進行分析會相對復雜一些,需要人機輔助。而且異構數據所承載的信息量,如一段視頻、一張圖片或一張照片,都只是反應一件事,就是一個字節。要想形成大數據很容易,只要不做結構化數據,幾天就能形成大數據,這幾天的數據量比做結構化數據的人幾十年做的數據量都多。但那只是字節數,它承載的信息量可能沒什么。”
他指出,對異構數據進行標準化分析,需要用到線性分析模型,但前提必須將其轉化成結構化數據。當然,對異構數據進行轉換不是一個簡單的編碼那么容易。因為很多異構數據并非一個固化的狀態,而是一個動態的。所以,先得制定一套評價它、固化它的尺度或者標準,然后在整個分析過程中用這個標準來衡量所有過程或行為。
首發集團副總工程師兼信息化辦公室主任徐志斌認為,“像我們一年大概路上會有幾億筆交易,其中交易車輛信息包括了路上的視頻信息。這些信息形成我們的樣本優勢。所以我們希望通過機器學習,看能否從現有一些圖片里針對我們自身需求進行提取,來做一些特征分析。”但他表示,“采用傳統算法想要做這樣的事情效果不是太理想。”
目前國際上視頻技術也有比較前沿的研究方向,即如何就視頻數據去做濃縮。這樣做的目的,一個是,比如晚上沒車的數據有8個小時,通過濃縮,最終可能只留1個小時的數據,能夠降低成本;第二個,相當于是從視頻數據里進行一些目標、特征或事件行為的提取。此外,業內對視頻數據分析也有不做結構化轉換,直接以圖定圖模式去處理的,“這種應用更多的是做一些分析,比如在路上行駛的車輛,可以定位到這輛車在某個時間段里的行駛軌跡、路徑等。”
徐志斌認為,現階段先考慮將視頻數據從非結構化轉成結構化數據,將大量所需特征提取出來后再做留存,這種方式處理不光是縮減量很大,也只有到這個階段可能才適合留存下來再去做數據的挖掘分析。
顯然,在對異構數據分析處理尚未有特別有效的解決辦法之前,我們大談大數據分析應用時就不得不警惕產業泡沫的滋長。
一如中國工程院孫家廣院士曾提醒的那樣,談大數據,有一個數據希望引人注意,“我們傳統數據是字符數據,但現在的大數據99%都是新媒體,像視頻、音頻這樣的數據,字符數據占用量不足0.1%。所以,在這個形勢下必須要對大數據進行研究,過去傳統數據里的字符數據已經過時了。”形勢如此緊迫,相比過早的談論大數據分析應用,我們是否該將更多的目光先轉向解決異構數據的分析處理研究上來呢?