雖然早已聽說過舍恩伯格的《大數(shù)據(jù)時代》,但直到前不久才瀏覽本書的內(nèi)容,看完之后還是有點(diǎn)震撼的,主要是大數(shù)據(jù)對我們?nèi)粘I詈退季S的影響太大了。下面摘取部分原文表述或案例來梳理一下這本書,其中有我本人的部分總結(jié)和評述。
有三個案例比較有意思,一是福特的名言,“如果當(dāng)年去問顧客他們想要什么,他們肯定會告訴我:一匹更快的馬。”
喬布斯多年來持續(xù)不斷地改善Mac筆記本依賴的可能是行業(yè)分析,但是他發(fā)行的iPod、iPhone和iPad靠的不是數(shù)據(jù),而是直覺,第六感。
谷歌公司內(nèi)部的研究表明工作表現(xiàn)與大學(xué)畢業(yè)時的平均績點(diǎn)沒有關(guān)系,但其創(chuàng)始人依然要應(yīng)聘者提供分?jǐn)?shù)。
前兩個例子(福特和蘋果)說明大數(shù)據(jù)有時候是無效的,后面谷歌的例子則說明管理層對數(shù)據(jù)過度的執(zhí)著。
大數(shù)據(jù)對人類生活的破壞莫過于它過于強(qiáng)大的預(yù)測功能,如通過一個人過去的表現(xiàn)可以準(zhǔn)確預(yù)測到他在特定環(huán)境下一定會犯罪,那么,社會保障機(jī)制就會懲罰一個從來沒有犯錯的人。如書中所述:
“因為預(yù)測的結(jié)果幾乎不可辯駁,人們也就無法為自己開脫。但這種基于預(yù)測得出的懲罰不僅違背自由意志的原則,同時也否定了人們會突然改變選擇的可能性。”
以上弊多些,下面談利。
聰明的公司會從人們與信息交互中收集數(shù)據(jù)廢氣,以用來改善現(xiàn)有的服務(wù)或推出全新的服務(wù)。
“擁有知識曾意味著掌握過去,現(xiàn)在則更意味著能夠預(yù)測未來。”-----這句話很精辟。
“情報分析員結(jié)合實地考察報告和過去IED襲擊地點(diǎn)、時間和人員傷亡的詳細(xì)信息,據(jù)此預(yù)測一天中最安全的運(yùn)送路線。”類似的,我也聽說過美國建立的爆炸物碎片博物館的事情,基于爆炸物的各種信息追蹤恐怖分子武器彈藥的生產(chǎn)基地和儲存地點(diǎn)。
“為了促進(jìn)大數(shù)據(jù)平臺的良性競爭,政府必須運(yùn)用反壟斷條例。”
谷歌對量化數(shù)據(jù)的極致追求可能過頭了,因此激起了員工的反抗。(弊)
通過大數(shù)據(jù)預(yù)測來判斷和懲罰人類的潛在行為是對公平公正和自由意志的一種褻瀆。(弊)
過去是要成為一個優(yōu)秀的生物學(xué)家就需要認(rèn)識很多生物學(xué)家,但現(xiàn)在可能是,要解決一個生物難題或許和天體物理學(xué)家或數(shù)據(jù)視圖設(shè)計師聯(lián)系即可。
由于大數(shù)據(jù)的功勞,微軟機(jī)器翻譯部門的統(tǒng)計學(xué)家在茶余飯后的談資就是每次一有語言學(xué)家離開他們的團(tuán)隊,翻譯質(zhì)量就會好一點(diǎn)。
當(dāng)亞馬遜的貝索斯發(fā)現(xiàn)算法推薦能促進(jìn)銷量增加的時候,他就不再需要書籍評論員了。
“有風(fēng)險才有回報。”
更明智的選擇是讓自己受益,汽車制造商與供貨商的例子十分精彩,感興趣的可以參見原書p171.
上班高峰期交通狀況的變好說明失業(yè)率增加,即經(jīng)濟(jì)狀況變差。
谷歌和亞馬遜:數(shù)據(jù)、技能和思維三者兼?zhèn)涞膬?yōu)秀公司。
數(shù)據(jù)的擁有者可能沒有使用數(shù)據(jù)的動機(jī)和強(qiáng)制要求。
外行人的思維不受專業(yè)限制,可能做出有更有價值的發(fā)現(xiàn)。
數(shù)據(jù)科學(xué)家是統(tǒng)計學(xué)家、軟件程序員、圖形設(shè)計師和作家的結(jié)合體。
谷歌首席經(jīng)濟(jì)學(xué)家范里安認(rèn)為統(tǒng)計學(xué)家是世界上最棒的職業(yè),“如果你想成功,你不應(yīng)該成為一個普通的、可被隨意替代的人,你應(yīng)該成為稀缺的、不可替代的那類人。”“數(shù)據(jù)非常之多,但是真正缺乏的是從數(shù)據(jù)提取價值的能力。”
DataMarket向人們提供其他機(jī)構(gòu)(如聯(lián)合國、世界銀行和歐盟統(tǒng)計局等)的免費(fèi)數(shù)據(jù),真的嗎??
無形資產(chǎn),如數(shù)據(jù)占到美國上市公司價值的75%。
政府才是大數(shù)據(jù)的原始采集者,因此奧巴馬說的很好,“面對懷疑,公開優(yōu)先”,就是政府應(yīng)該承擔(dān)的責(zé)任。
丹麥癌癥協(xié)會的案例:手機(jī)是否增加致癌率。他們使用的數(shù)據(jù)集原本根本不是用來研究這個問題的,基于“樣本=總體”,做出了重大發(fā)現(xiàn):使用移動電話與癌癥風(fēng)險增加不存在任何關(guān)聯(lián)。這項研究彰顯了“重組數(shù)據(jù)(二次利用)”的魅力。
思維的轉(zhuǎn)換案例:零售商在店內(nèi)安裝監(jiān)控攝像頭不僅能認(rèn)出商店扒手,還能跟蹤在商店購物的顧客和他們停留的位置。零售商利用后面的信息可以設(shè)計店面的最佳布局并判斷營銷活動的有效性。在此之前,監(jiān)控攝像頭僅用于安保,現(xiàn)在則變成的一種可以增加收入的投資。
同樣是亞馬遜和谷歌的案例,AOL和Nuance與他們合作簡直虧死了,大公司真可怕!
同樣是震撼的案例:
“數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。”
1)Farecast利用機(jī)票銷售數(shù)據(jù)來預(yù)測未來的機(jī)票價格;2)谷歌重復(fù)使用搜索關(guān)鍵詞來預(yù)測流感的傳播;3)麥格雷戈博士用嬰兒的生命體征預(yù)測傳染病的發(fā)生;4)莫里重新利用老船長的日志而發(fā)現(xiàn)了洋流。
幾十年的試驗和錯誤才實現(xiàn)現(xiàn)有加油站的有效分配,但電動汽車的充電站的需求和設(shè)置點(diǎn)目前還不得而知。
哈哈,“魚不知道自己是濕的”,真的嗎??
驗證碼的發(fā)明人路易斯27歲時獲得了50萬美元的麥克阿瑟的“天才獎”。(題外話:2012年美國的最低工資是7.25美元/小時,一天工作八小時的話,則是348元人民幣。)
一點(diǎn)點(diǎn)的不精確比完全精確更有效。
當(dāng)?shù)匕鍞?shù)據(jù)化的時候,它能滋生無窮無盡的用途。
大數(shù)據(jù)分析表明:個人償還債務(wù)的可能性和其朋友償還債務(wù)的可能性正相關(guān),物以類聚,人以群分啊!
UPS最佳行車路徑:盡量少左轉(zhuǎn),因為左轉(zhuǎn)要求貨車在交叉路口穿過去,所以更容易出事故。貨車往往需要等待一會才能左轉(zhuǎn),因此更耗油,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。
萊維斯:“預(yù)測給我們知識,而知識賦予我們智慧和洞見。”
iPhone本身就是一個“移動間諜”,同樣包括安卓的和微軟的手機(jī)。
谷歌,一個喜歡跨界的叛逆的大數(shù)據(jù)公司。亞馬遜深諳數(shù)字化內(nèi)容的意義,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價值。
哈佛大學(xué)的研究人員發(fā)現(xiàn)5000億個單詞中有一半以上在字典中無法找到,真的嗎?
1900年以前,“因果關(guān)系(causality)”這個詞比“相關(guān)關(guān)系”(correlation)使用頻率高,但在1900年之后,情況相反。(Google Ngram Viewer)
“Data”這個詞在拉丁文里是“已知”的意思。
鄧肯說:一旦你知道了結(jié)果,一切都很容易。
感冒與穿戴之間沒有直接關(guān)系。
“數(shù)據(jù)表明,早產(chǎn)兒的穩(wěn)定不但不是疾病好轉(zhuǎn)的標(biāo)志,反而是暴風(fēng)雨前的寧靜,就像是身體要它的器官做好抵抗困難的準(zhǔn)備。”類似于回光返照啊!
“一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。”冰凍三尺非一日之寒!
達(dá)爾文的表弟費(fèi)朗西斯-高爾頓爵士就注意到了人的身高與前臂長度的關(guān)系,達(dá)爾文家族真是厲害,好像每個人都是科學(xué)家!
相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系。
印象派的畫風(fēng):近看每一筆都是混亂的,退后一步看卻是一副偉大的作品。
快速獲得事物的一個大概的輪廓和發(fā)展脈絡(luò),就要比嚴(yán)格的精確性要重要的多。
偉大的物理學(xué)家開爾文男爵:測量就是認(rèn)知。
一個在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要性不如一個與很多關(guān)系網(wǎng)外的人有聯(lián)系的人,說明多樣性的額外價值。------Structureand tie strengths in mobile communication networks.
擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細(xì)致地觀察和研究數(shù)據(jù)的方方面面。
大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。
異常值也是很有用的信息,如甄別信用卡詐騙。
我們不能滿足于正態(tài)分布一般中庸平凡的景象,生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法無法捕捉到這些細(xì)節(jié)。
“采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到某個值后,我們從個體身上得到的信息越來越少。”---p33,但這只是傳統(tǒng)的數(shù)據(jù)收集方法,且必須保證“隨機(jī)性”才是成立的!
“寶貝不止一個,每個數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)覺的價值。”
“相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何發(fā)生,但是它會提醒我們這個事情正在發(fā)生。”
“大數(shù)據(jù)的核心就是預(yù)測。”
“物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時,事物的狀態(tài)也有也會發(fā)生改變。”
“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握聆聽手段的人所知。”
谷歌為測試檢索詞條,總共處理了4.5億個不同的數(shù)學(xué)模型,驚嘆!
“越是萬能的,就越是空洞的。”----至理名言!
大數(shù)據(jù)時代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對精確、要相關(guān)不要因果。
“最重要的是人們可以在很大程度上從對于因果關(guān)系的追求中解脫出來,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上,只要發(fā)現(xiàn)兩個現(xiàn)象之間存在的顯著相關(guān)性,就可以創(chuàng)造巨大的經(jīng)濟(jì)和社會效益,而弄清二者為什么相關(guān)可以留待學(xué)者們慢慢研究。”---謝文
大數(shù)據(jù)在公共衛(wèi)生、商業(yè)服務(wù)領(lǐng)域的應(yīng)用:不再追求精確性,不再追求因果關(guān)系,而是承認(rèn)混雜性,探索相關(guān)關(guān)系。
我覺得可以以下面一小段話結(jié)束全文:關(guān)于大數(shù)據(jù),我們或許還不能完全適應(yīng),因為我們腦海里一種根深蒂固的對因果關(guān)系和精準(zhǔn)數(shù)據(jù)的追求。而我們的下一代,一群被“大數(shù)據(jù)觀念”陶冶長大的家伙,會發(fā)自肺腑地認(rèn)為“量化一切”并從中學(xué)習(xí)對于社會是至關(guān)重要的。(改寫自原書p126)
文中列舉的文獻(xiàn)也比較有意思:
谷歌的2009年的Nature論文
PLoS ONE: Human Mobility Networks,Travel Restrictions, and the Global Spread of 2009 H1N1 Pandemic
呂林媛2012年P(guān)hysics Reports的Recommendation Systems
PNAS: Structure and tie strengths inmobile communication networks
張子柯:Tag-aware recommendersystems: A state-of-the-art survey
丹麥癌癥協(xié)會的案例:手機(jī)是否增加致癌率Use of mobile phones and risk of brain tumours: update of Danish cohort study
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13698.html