當前位置：大數據 → 業界動態 → 正文

大數據≠“大”的數據

責任編輯：editor007 作者：王世停 |來源：企業網D1Net 2017-09-11 21:23:50 本文摘自：新華日報

“多大的數據才叫大數據？”

中國南京軟博會的重頭戲——大數據產業互聯網融合創新發展高峰論壇開講在即，記者在會場門口“抓”到加拿大工程院院士凌曉峰。問及大數據產業如何“驅動未來”，這位國際權威專家以一句反問作答。

作為第一位登臺演講嘉賓，凌曉峰院士正式拋出自己的新觀點：大數據≠“大”的數據。

“你可以去問任何一個專家，到底什么叫‘大數據’？多大的數據才能叫‘大數據’？他肯定回答不出來嘛。”凌曉峰說，數據的“大”或“小”并不是關鍵，重要的是從數據中挖掘價值，創造價值。

舉例而言，醫學應用上研究心臟疾病，想知道病人怎么做才能更加健康，于是搜集大數據。但一個人每天產生的各類數據是海量的，大量的數據跟病理反應本質上毫無關系，你去搜集、去分析，不但做了無用功，還可能得出錯誤的分析結論。一個反面案例是，在美國拉斯維加斯的賭場，紅黑轉盤邊都用一個大屏幕顯示之前的開獎信息。很多人看著前面出現“紅色”次數較多就下注“黑色”，這就是典型的“數據噪聲”——搞統計的都知道，這完全是隨機的，這些所謂的“大數據”是無效的甚至干擾的。

“開展大數據分析一定要有‘應用場景’，講求數據的精準性和關聯度，數據本身的‘大’或‘小’并不是關鍵。” 凌曉峰說，盲目追求數據之大，產生不了“有用的結果”，反而容易“自我迷惑”，這也是當下大數據產業存在的普遍誤區。

這一觀點有極強的現實針對性。當下，不少制造企業言必稱“大數據”，無論搞什么產品，都接入光纖，加上傳感器，每時每刻產生一大堆“數據”。問題在于，數據有了，但哪些有效哪些無效，無從辨別。不但造成硬件設備和統計計算資源的浪費，還可能因“數據噪音”的干擾得出錯誤結論，反而削弱市場競爭力。

“我們把大而無當的數據稱作‘低價值密度’的數據。”中國工程院院士譚建榮告訴記者，以前專業術語就叫“數據挖掘”“數據分析”，現在為何要給數據加上“大”的前綴？在他看來，所謂的大，一是強調數據的時效性，以前數據報表都是延時的，新的物聯傳感技術手段提供的數據更實時，也更有價值。二是強調關聯化。他調研發現，長三角企業推進信息化，普遍采用生產管理軟件。但這些通用軟件數量多達幾十上百種，不同軟件產生的數據是不共享的。如果產生不了關聯效應，再多的數據都只能算是“小數據”。三是要強調“個性化”。數據模型越大，越能得到個性化的特征，如何將客戶模糊的個性化需求數據轉化為設計技術指標，將是工業大數據應用的下一個“風口”。

“大數據真正要義不在于大，而在于多元。”大數據產業大咖、零點研究咨詢集團董事袁岳說，如何使多元數據在匯聚的過程中，通過軟件處理最終得到科學的分析結果，變成有用的數據源，這才是生產制造和社會管理領域建立大數據決策系統的意義。“就像挖礦過程中，大數據是其中的原油，只有經過精細的提煉變成精數據才有價值。”

一場“頭腦風暴”，歷時三四個小時。唇槍舌劍中，一項項共識逐漸成型——大數據≠“大”的數據；大數據產業發展要“應用導向”；數據將是未來發展最重要的資源，甚至“驅動未來”……

“去年8月《江蘇省大數據發展行動計劃》發布后，大數據產業在全省蓬勃發展，應用日新月異，產業園遍地開花。”南京大數據產業協會負責人說，《第三次浪潮》里早把大數據看作是繼計算機、互聯網之后的信息時代的第三次技術革命。但時至今日，還有人認為“不過是IT、互聯網業界的又一次概念炒作”。此次高峰論壇厘清大數據本質，直指當前產業發展誤區，既契合“數據驅動未來”的軟博會主題，又對國內大數據產業今后發展有“里程碑”意義。

關鍵字：數據數據分析數據挖掘