摘要:按照今天信息技術的發達程度,數據收集看起來很容易。
按照今天信息技術的發達程度,數據收集看起來很容易。一個攝像頭每天收集多少信息?空間跑著那么多衛星,它們每天收集多少信息?好像不用愁沒有信息。
按照今天信息技術的發達程度,數據收集看起來很容易。一個攝像頭每天收集多少信息?空間跑著那么多衛星,它們每天收集多少信息?好像不用愁沒有信息。而數據挖掘要從繁雜的信息中尋找知識,就很困難了。但是,事情可能不是那么簡單。在某些情況下,數據收集可能比數據挖掘更難、更有意義。
不竟想起所謂“費米悖論(Fermi Paradox)”。1950年的一天,諾貝爾獎獲得者、物理學家費米在和別人討論飛碟及外星人問題時,突然冒出一句:“如果有外星人,他們為什么沒在這里?”這句看似簡單的問話,就是著名的“費米悖論”。如果認為在如此廣闊的宇宙中(上百億光年的空間,約700萬億億顆恒星),在如此漫長的時間里(100億~160億年),全宇宙總共只誕生了太陽系的地球這唯一的文明,這聽起來無論如何總是極端武斷的。那么,總該有一個兩個外星文明被我們發現,或到地球來訪問過了吧?為什么它們至今仍然是沉默的呢?人類能用100萬年的時間飛往銀河系各個星球,那么,外星人只要比人類早進化100萬年,現在就應該來到地球了。迄今為止,仍然缺乏任何被科學共同體接受的證據,能夠證明地外文明的存在;另一方面,科學共同體也無法提出任何令人信服的證據,能夠證明外星文明不存在,這就使得“費米悖論”成為一個極端開放的問題
我們學偏微分方程的時候,總是要先論證某一類方程解的存在性。知道解的存在,才能去求解??墒?,不求出解來,怎么知道解是存在的呢?這就是一個悖論。對存在的數據集應用算法過去是產生新發現的有效方法,而現在新知識可以使用可用的材料資源創造財富,比累積新資源更有效。過去,生物學家,天文學家和宇宙學家從歷史數據中找發現,考古學家艱難地去挖掘?,F在,他們可以重建所有的廢墟和人工制品,從衛星和航拍圖像偵察到的表面跟蹤想象出來。研究(Research)就真成了重新搜索(Re-Search)。
聯想到馬航MH370失聯事件。2014年3月8日凌晨1時20分,由馬來西亞吉隆坡飛往中國北京的馬來西亞航空公司MH370航班與地面失去聯系,機上239人中有154名中國籍乘客。此事已經過去35天,先后26個國家參加搜索,出動幾百架次飛機和軍艦、商船,花費超過5000萬美元。先說在南海,折騰了10多天一無所獲;有人根據衛星圖像說是在吉爾吉斯西北部的塔拉斯州州府以南約30公里處的山谷里;后來又說是在印度洋;反復折騰,試圖收集MH370的數據,但是,至今沒找到。按理說,有關的數據多的是,即使是這35天的衛星數據、搜索飛機得到的數據,不可謂不大,不管你怎么去挖掘這些數據,你也得不到任何MH370的數據。這個例子說明,在某些情況下,數據收集比數據挖掘更難、更有意義,因為這種數據收集就是發現。這里的數據分析是和政治有關的,甚至說,數據收集的過程也與政治有關。不要認為,大數據能解決一切。而在數據收集中,硬件技術不可缺少。我們國家在硬件技術和生產方面應該承認差距,加強研究、制造和發展。