與“大數據”相關聯的科學問題是什么?在科學問題是什么都不明確的情況下,大筆科研經費投向“大數據”研究,大批“大數據”中心和基地在火熱建設,這些現象的存在更像是在搞冒進,而不是進行科學研究。因此,“大數據”的負面作用要遠大于其正面作用。
目前業界和學界對“大數據”這一概念的定義是:數據量的規模大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。這里的“數據”是一個廣義的概念,包括數據、圖像、視頻、文字等訊息。
如果按上述定義來理解“大數據”,那么有些學者提出的“大數據‘是一個過度包裝的概念’、‘是個偽命題’”的說法就很容易理解了。我們現在經常遇到并且很容易處理的幾百兆的數據,在20世紀90年代就稱得上“大數據”了,因為那時的PC機配有40兆的硬盤便屬于高配置,當時幾百兆的數據連存貯都做不到,更談不上處理。因此,所謂的“大數據”只是一個相對概念,隨著計算機硬件技術、計算機科學和統計科學的發展,今天的“大數據”也許10年或20年后就是大學生普通作業題中所用到的一般數據了。
盡管如此,“大數據”的正面作用是不可否認的。由于數據規模爆炸式增長,以及大數據的特點——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性),對計算機工程、計算機科學和統計科學提出了新的挑戰。正是這些挑戰,促使計算機工程、計算機科學和統計科學等領域的數據處理的理論、方法和技術得到快速發展。
在看到“大數據”正面作用的同時,我們更應該看到其負面作用。無論是計算機科學還是統計學領域的學者,如果今天還沒有做有關“大數據”的課題,會被認為落伍了。今天以“大數據”為主題的跟風、炒作比比皆是,例如以“大數據”為主題的學術會議數不勝數,“大數據”中心或基地風起云涌,網絡上與“大數據”相關的條目數以億計。似乎“大數據”是21世紀第一個被發現的“金礦”,吸引了大批淘金者。而很多有關“大數據”的說法,如“人類已進入大數據時代”,“大數據”之于經濟社會發展的作用以“革命性意義”,甚至把“大數據”的作用與第一、二次工業革命相提并論,“大數據”明顯地被用來進行商業炒作。這樣看來,“大數據”不僅不是什么金礦,更像是一個吸金的黑洞。我們永遠不要忘記美國通過“冷戰”拖垮蘇聯的教訓,盡管“大數據”問題沒有嚴重到“冷戰”的程度,但其前兆已經顯現。
與“大數據”相關聯的科學問題是什么?在科學問題是什么都不明確的情況下,大筆科研經費投向“大數據”研究,大批“大數據”中心和基地在火熱建設,這些現象的存在更像是在搞冒進,而不是進行科學研究。因此,“大數據”的負面作用要遠大于其正面作用。今天的“大數據”更像是我國20世紀80年代剛剛建立的股票市場,一開市會吸引一批投資者,同時也吸引更多投機者。
大浪淘沙,理性必然最終回歸。無論業界還是學界,在政府相關機構的正確引導下,隨著時間的推移,必將回到正確面對“大數據”的軌道上來。