大數據是時下最時髦話題,技術專家、企業家為人們描繪了大數據下的美好生活。近期,美國學界和媒體有關“谷歌流感趨勢”的討論,又把大數據推上了風口浪尖。
“谷歌流感趨勢”是谷歌公司多年前推出的一款預測流感的產品。該公司的工程師認為,搜索流感信息的人數與實際患病人數之間存在密切關聯。通過匯總用戶的相關搜索記錄,“谷歌流感趨勢”可以預測出世界上不同國家和地區的流感傳播情況。2009年,甲型H1N1流感暴發的幾周前,“谷歌流感趨勢”成功預測了流感在美國境內的傳播,其分析結果甚至具體到特定的地區和州,并且非常及時,令公共衛生官員備感震驚。因為傳統上,美國疾病控制中心要在流感暴發一兩周之后才可以做到這些,“谷歌流感趨勢”的社會意義不言而喻。
然而好景不長,2013年初,英國《自然》雜志報道了一則壞消息:在最近一次流感暴發中,“谷歌流感趨勢”不起作用了!這個工具曾經可靠地運作了幾個冬天,在海量數據分析和號稱“不需要理論模型”的條件下,提供了快速、準確的流感暴發趨勢。而這一次,谷歌產品顯示的數據,與美國疾病控制中心匯總后的結果比起來,夸大了幾乎一倍!
英國《金融時報》專欄作家提姆·哈福德指出,很多人認為,大數據可以完全取代傳統統計方法,這種觀點十分傲慢。科學技術發展到今天,人們有能力獲得比幾十年前多出許多的信息,知道的多似乎比知道的少要好,但是知道的多就等于知道的真嗎?從茫茫“數據海洋”中得到真相,并非易事。
大數據紛繁多樣,優劣摻雜,隨著數據規模擴大,統計結果的真實性、準確性可能大打折扣。《大數據時代》一書的作者也不諱言,大數據本身探尋的是一種趨勢,而非精準性,大數據時代需要學會接受數據的不完美。換言之,不能因為不精確而放棄大數據的應用和發展,若要無限接近統計結果的真,必須讓大數據與精細的傳統統計方法互補,而非兩者相互替代。
對科學界來講,大數據并不是一個全新的概念。與自然科學不同,社會化下的信息技術,讓大數據進入了社會層面,被賦予更多新的含義和期待。量子基金的喬治·索羅斯提出過一個“自反性”概念,認為社會系統的參與者是有思想的,在這樣的環境中,不僅觀察,就連思想和信念都會影響到我們研究的對象,從而影響我們得出的結論。索羅斯的這一概念,對于大數據研究和應用也同樣適用。
盡管日益成為大數據的享用者和制造者,人們還是應該保持主動性,不能被數據牽著鼻子走。