就大數(shù)據(jù)的出現(xiàn)來說,適宜發(fā)展(Goldilock)、重新思考(Rethink)和時機(Opportunity)是三個主要要素。其實現(xiàn)今數(shù)據(jù)分析利用的技術概念早在二、三十年前就出現(xiàn)了,至今變動不算太大。但是從電腦/數(shù)據(jù)科學家的角度來看,薛總經理殷切地叮嚀著正經歷大數(shù)據(jù)時代的我們:「你所處的這個時刻對人類來說是非常非常重要。」
Goldilock:不冷不熱的這些時刻
自宇宙大爆炸開始,恐龍生滅、冰河時期,一直到人類聚落出現(xiàn),甚至是現(xiàn)在各種新奇電子裝置的產生,每個重要時間點都由一些大事標注。那些當年不冷不熱、剛好出現(xiàn)而發(fā)生的時刻,就是Goldilock。 我們回顧歷史可以發(fā)現(xiàn)「有些事」發(fā)生了,但更重要的是它「什么時候」發(fā)生。
1970年前后,不論是英特爾公司的第一張晶片、現(xiàn)代電腦雛型、或是數(shù)據(jù)數(shù)據(jù)庫的理論等,都在此人類重要的時刻萌發(fā)。這些硬體設備的革新的確都跟著摩爾定律(Moore’s law)以每兩年寬一倍的趨勢持續(xù)進步。[注2] 而當年設計出程式C語言的Dennis Ritchie、Kenneth Lane Thompson和Brian Wilson Kernighan,對軟體步步成長開發(fā)的貢獻極為重大:若是沒有 C 語言的誕生,就不可能發(fā)展出現(xiàn)在的 Linux、BSD、Mac OS等系統(tǒng);當然,我們也不會有機會看到Steven Jobs創(chuàng)造的蘋果傳奇。
70年代以來一直被視為理所當然、但其實想法較為落后的電腦運算模式(computing model):就像木工匠的工作臺(workbench),把數(shù)據(jù)庫疊床架屋地放在外面,有多少空間做多少事。然而,過去的數(shù)據(jù)量很小,代碼大小(code size)都可能比數(shù)據(jù)數(shù)據(jù)(data size)還大,一直演進至現(xiàn)今的應用,數(shù)據(jù)量已經遠遠大于代碼大小了。
空間決定了容量。大量數(shù)據(jù)在以前的運算模式可能因為空間有限而無法計算,大數(shù)據(jù)的運算概念則是從有限空間延伸到無限空間。給予2^64位元(可以計算看看這個天文數(shù)字,約莫曾曾曾孫的年代會得到結果),把所有數(shù)據(jù)放在距離CPU都一樣近的地方,不用再將數(shù)據(jù)搬來搬去的。如此你可以得到即時迅速的大量數(shù)據(jù)分析,用無限大而永續(xù)的空間來換取直接的操作 。
資源可能可以無限大,但是人的時間是有限的。舉SARS時期來說,你若須花費兩星期才能測出得病與否的話,病人可能都撐不下去、先走一步了。利用「空間」換取「時間」,也得到「速度」--速度是人類永遠重要的基礎概念。
薛總經理謙虛地說了,核桃運算的任務便是不斷設計出更適合巨量數(shù)據(jù)演算的模式,以利數(shù)據(jù)分析,提供情報給新穎的應用。大數(shù)據(jù)本身是一個「現(xiàn)象」而不是「問題」。在有限、能夠容忍的時間內解決大量的數(shù)據(jù),重點就是你想要「問它什么問題」?試想,如果回到當初,給予那三位創(chuàng)造者2^64的無限空間,他們會做出什么不一樣的東西?
可能現(xiàn)在就是Goldilock,當大家開始把作業(yè)第一步的假設拿出來重新再討論的時候,這個年代也許會有新的或是更高的智慧發(fā)生。最后,薛總經理鼓勵我們:「現(xiàn)在,你們有這些應用,你們可以重新翻轉過去舊的想法,然后創(chuàng)造出偉大的東西。」
--------------------------------------------------------------------------------
注1: Goldilock 一詞源自于格林童話故事《金發(fā)女孩與三只熊(Goldilocks and Three Bears)》的故事情節(jié)。故事中的金發(fā)女孩Goldilocks擅入三只熊的房屋內,看到桌上三碗粥,太熱的、太冷的都不吃,只挑不冷不熱的吃;又只選坐不大不小的椅子和不軟不硬的床。
后來在天文學里,「金發(fā)姑娘地帶」指的是一個星球周圍的宜居地帶。經濟學家則引之形容高成長、低通膨的「新經濟」狀態(tài),因此「金發(fā)經濟」指的是不過冷(not too cold)、不過熱(not too hot),溫度適中(just right)、美夢一般的市場。
注2: 摩爾定律(Moore’s law): 由英特爾創(chuàng)始人之一戈登·摩爾提出來。指相同售價、尺寸相同的晶片上(積體電路),可容納的電晶體數(shù)量,因制程技術的提升,每(24個月)18個月會提高一倍(效能加倍);晶片的容量是以電晶體(Transistor)的數(shù)量多寡來計算,電晶體愈多則晶片執(zhí)行運算的速度愈快,當然,所需要的生產技術愈高明。
--------------------------------------------------------------------------------
【關于 M. I. C.】
M. I. C.(Micro Idea Collider,M. I. C.)微型點子對撞機是 PanSci 定期舉辦的小規(guī)模科學聚會,約一個月一場,為便于交流討論,人數(shù)設定于三十人上下,活動的主要形式是找兩位來自不同領域的講者,針對同一主題,各自在 14 分鐘內與大家分享相關科學知識或有趣的想法,并讓所有人都能參與討論,加速對撞激蕩出好點子。請務必認知:參加者被(推入火坑)邀請成為之后場次講者的機率非常的高!