有人說,拋開功利目的,統計學其實就是一項任務明確的客觀工作。要達成這一任務,無非是處理數據,從中尋找信息,繼而得出結論。但數據從來不是單純的數字,它是關于事實的符號記錄,構成信息或知識的基礎材料。數字是抽象的符號,數據卻包含著特定的意義。比方說“157”這個數字,本身沒有任何主觀的含意。可是,如果有人說,157是一個成年男子的身高,我們立刻就會明白,哦,它的單位肯定不是千克,也不是毫安,而是厘米。接著我們也許還會推斷說,這個人的個頭比較小,不太可能去打NBA。可見,數字必須嵌在經驗、上下文聯系、解釋等主觀判斷里才可能成為數據。換句話說,在統計學的范疇內,數據是“有內容的數字”。而所謂內容,其實大有玄機。
縱使我們對數據來源抱以高度的清醒,也未必能做到客觀真實。
2008年,納特·希爾弗在美國大選期間成功預測了49個州的選舉結果。2012年,他更是驚人地準確預測了美國全部50個州的選舉。但正是這個被譽為“神奇小子” 的人提醒大家,在如今所謂“大數據”的時代,作為一門炙手可熱的學問,統計學的第一戒條就是謙遜。一個好的統計學家必須認識到,哪些事情統計學可以辦到,哪些不能。而這一點,往往是分辨好數據與壞數據的前提。
上世紀七八十年代,當計算機開始得到廣泛運用時,人們樂觀地以為,統計學可以解決經濟預測問題。然而30年過去了,經濟仍然是一個湍流難測的領域。很少有人預知到經濟危機的發生,經濟趨勢的預測通常也充滿了一個個互相矛盾的修正值。
經濟學家哈祖斯是少數準確預測到2008年國際金融危機的人。他認為,人們在下判斷時,總是傾向于選擇那些滿足自身偏見的數據。不管這些偏見是經濟動機還是政治信仰,它們都會使數據變得很不可靠。他說:“我認為人們絕對有這樣的傾向,急切地希望事情按照自己希望的方式發展下去。”正是這種一廂情愿的自以為是,使得數據、統計,以及它們描述的世界統統發生了扭曲。
哲學家C.I.劉易斯告誡人們:“不存在任何先驗的理由足以證明,當我們發現真理的時候,它會是有趣的。”不僅是統計學,任何以真理為最終目標的知識,都應該以此為圭臬。