參考消息網8月11日報道 美國《華爾街日報》網站8月9日報道稱,克里斯·法雷爾現年28歲,是一名數據科學家。這個工作頭銜3年前還不存在,但從那時以來卻成為高科技勞動市場上最熱門的角落之一。零售商、銀行、重型設備制造廠和婚介所都想讓專家從互聯網、機器和智能手機上提取并分析大量的數據,從而引發了尋找和培訓這種人才的一場競爭。
雇主們說,理想的候選人必須具備超出傳統的市場研究技能:能在不同來源不斷提供的千百萬份數據中分辨模式,根據模式推論出顧客行為,并編寫具體指明行為誘因的統計模型。
例如,在電子商務運營商Etsy公司,一名曾花費數年時間挖掘醫療記錄數據、尋找乳腺癌早期跡象的生物統計學家,如今在編寫統計模型,以弄清人們在公司網站搜尋自己在街上看到的一種新時尚時所采用的詞匯。
在移動支付創業公司Square,一位曾編寫統計模型來考察人們如何改變政治信仰的認知心理學家,如今在尋找行為模式,以識別哪些商人比較可能遭到客戶退款的要求。
一些此類實驗引起人們的驚慌。臉譜公司最近因一項實驗成為關注焦點。在實驗中,公司的數據科學團隊試圖通過改變新聞推送內容來操縱人們的情緒。
招聘機構說,只有兩年經驗的數據科學家就能每年賺取20萬到30萬美元的收入。這種人才的稀缺性反映在數字上。一家網站的數據顯示,去年底有6000家公司在招聘這種人才。
在過去兩年時間里,全世界產生的數據已經超過了人類歷史上的所有數據。更好的開發、分析這些信息能使我們更準確的預測人類疾病的可能性、激勵創新、釋放生產力以及創造新的消費服務。DSI 希望通過在醫療保健、金融服務、環境科學等領域內的學術專家和研究合作伙伴之間的“多學科合作”,找到新的解決復雜問題的方法。
研究所所長郭毅可教授對人民網記者表示,帝國理工有近20位諾貝爾獎獲得者,而近些年帝國理工在科技上有很大進展,怎么樣在新時代再把科技向前推進,主要是依靠數據。該數據科學研究院的特點在于各學科之間的交流。DSI還將制定一系列的研究生和行政人員課程,來培養下一代數據科學家和工程師。
倫敦帝國學院(Imperial College London)成立于1907年,全日制在校學生為13964名,學生和員工比例為12:1.1,有來自126個國家的學生在這里參與242個學校課程。根據學校提供的數據,該校在全球和歐洲高校排名中分列第10和第3位。
研究所所長郭毅可博士,清華大學畢業,1987年赴英國帝國理工學院計算科學系攻讀博士,2002年被聘為英國帝國理工學院計算科學系教授。
參考消息網7月31日報道 美國《外交政策》雙月刊網站7月29日發表的題為《社會實驗室》的文章寫道,2002年10月,新加坡國防第二部長黃永宏訪問了美國國防部高級研究項目局(DARPA)。該項目局是美國國防部下屬的研究機構,以研發M-16步槍、隱形飛機技術和互聯網技術聞名。黃永宏會見了退役美國海軍少將、時任DARPA高級項目負責人之一的約翰·波因德克斯特,他還擔任過前美國總統羅納德·里根的國家安全顧問。
黃永宏得知波因德克斯特正在展開一項新實驗,旨在利用對大量電子信息的分析尋找可疑行動的模式——主要是潛在的恐怖主義襲擊。
兩人在弗吉尼亞州波因德克斯特的小辦公室舉行了會面。波因德克斯特在一塊白色書寫板上為黃永宏描述了其設想系統的核心理念。波因德克斯特將其稱為“全面信息認知”(TIA)。該系統將收集所有方式的電子記錄——電子郵件、通話記錄、互聯網搜索、機票預定、酒店預定、信用卡交易記錄、醫療診斷報告;隨后,根據預先確定的、潛在的恐怖主義策劃情節,尋找可疑的襲擊分子在數據空間留下的數字化“簽名”或腳印。這一設想將鎖定那些處于策劃階段的壞分子,并向執法部門和情報官員發出警告,對其進行干預。
黃永宏后來回憶說:“我對這一大膽的理念印象深刻——通過連接數量巨大的數據庫,我們可以在大海里找一根針。”他希望知道這一系統是否能夠在新加坡使用,以偵查到恐怖主義的預警跡象。
回國后,黃永宏受到啟發,認為新加坡可以讓類似TIA的系統發揮效用。4個月后,他的機會來了。當時,新加坡爆發SARS,造成33人死亡,導致該國經濟增長大幅下滑。利用波因德克斯特的設計理念,新加坡政府迅速在國防部的一個機構內建立了“風險評估與偵測機制”(RAHS),該機構負責預防恐怖主義襲擊和“非常規”攻擊,如使用化學或生物武器。新加坡官員們就如何運用大數據為國家防御服務做了很多演講并接受了大量采訪。
2003年波因德克斯特離開DARPA后,他成為RAHS的一名顧問,很多美國間諜來到新加坡,研究該項目的第一手資料。他們感興趣的不僅是新加坡采取大規模的監視行動,而且還有該國民主與專制主義之間奇怪的混合。在這種混合體中,一個家長式作風的政府可以確保人民的基本需求——住房、教育和安全——反過來又贏得了人民的尊重。這是一個法律與秩序的社會,而“秩序”的定義是包羅一切的。
在創立10年后,RAHS項目的進展已超出了波因德克斯特的想象。如今,新加坡的各政府部門及軍隊的文職人員使用RAHS的情景策劃和大數據分析,展開除防范炸彈和極端分子以外的大量應用。他們用它來規劃采購周期和預算、展開經濟預測、為移民政策提供信息、研究房地產市場,以及為新加坡學齡兒童制定教育計劃。
新加坡已成為一個實驗室,不僅測試大規模監視和大數據分析如何防止恐怖主義,而且還測定這一技術是否能夠設計一個更和諧的社會。
【延伸閱讀】
智能硬件將推動大數據第二波浪潮的到來
2014-07-25 12:32:00
騰訊科技訊(韓依民)7月25日,在2014騰訊互聯網與社會研究院高峰論壇上,騰訊公司即通產品部助理總經理冼業成闡釋了大數據對政府、企業、個人的不同意義。并認為,智能硬件的發展,將推動大數據第二波浪潮的到來。
冼業成介紹,去年春節,騰訊公司根據QQ用戶登錄地點變化的數據,統計分析出春節期間人們遷徙地點的變化。這種基于大量數據統計出的結論,可以為政府在春運高峰期對交通、資源調配提供建議和參考。
這只是大數據應用的一個小例子,在大數據應用得到更加廣泛應用的趨勢下,大數據將可以幫助政府進行更加科學的社會治理。對企業而言,大數據可以幫助其進行更加精準的營銷。比如騰訊推出的競價廣告營銷系統廣點通,結合人們在網路上的行為,比如在電商網站的購買、點擊記錄等,判斷用戶的消費取向,進行廣告精準投放。
在未來,大數據更可以幫助建立個人的信用體系。冼業成認為,智能硬件的興起將掀起大數據第二波浪潮的到來。智能手環可以收集到人們的健康數據、智能冰箱可以采集到家庭生活的食品數據,隨著越來越多不同類型的數據出現,大數據將迎來第二波浪潮,基于這些全新的數據,互聯網企業可以提供更多服務。
【延伸閱讀】
谷歌啟動醫療健康新項目:大數據疾病預防
2014-07-25 10:32:00
新浪科技訊 北京時間7月25日上午消息,谷歌啟動了一個名為Baseline Study的全新科研項目,希望全面描繪健康人的身體究竟應該是何模樣。
為了完成這一項目,谷歌將從175人那里匿名搜集基因和分子信息,之后還會再搜集數千人的相關數據。
該項目目前還處于發展初期,由50歲的分子生物學家安德魯·康拉德(Andrew Conrad)負責。他曾經開創了便于廣泛開展且成本低廉的HIV測試方式,用于對捐贈的血漿進行檢測。
康納德2013年3月加盟Google X,他已經組建了一個由70至100人組成的團隊,涵蓋的領域包括生理學、生物化學、光學、成像學和分子生物學。
雖然目前還有很多大型的醫療和基因研究項目存在,但Baseline搜集的信息數量更大,范圍更廣。他們希望幫助研究人員更早地發現心臟病和癌癥的各種跡象,進而推廣預防措施,而不僅僅把精力放在治療上。
該項目并不局限于具體的疾病,而是會使用各種全新的診斷工具搜集成百上千的不同樣本。之后,谷歌便會利用其龐大的計算能力來尋找這些信息中隱藏的“生物標簽”,從而幫助醫療研究人員提前發現疾病。
例如,該研究可能會發現一些能夠幫助人們分解高脂肪食物的生物標簽。擁有這些生物標簽的人,可以將患上高膽固醇和心臟病的時間延后,沒有這類生物標簽的人則會更早患上心臟病。一旦Baseline發現了這一標簽后,研究人員便可通過檢查了解哪些人缺乏這類標簽,并幫助他們糾正習慣,或者開發出新的治療方法,幫助其更好地分解高脂肪食物。
谷歌擁有當今全球規模最大的電腦網絡和數據中心,可以迅速提供搜索結果和視頻服務。這同樣可以用于存儲和分析醫療信息。
目前為止,多數已經發現的生物標簽都與晚期疾病有關,因為這種研究普遍集中于病人。因此,利用現有數據盡早判斷疾病的效果不佳。研究人員認為,這一新項目將成為一次意義重大的跨越,因為人體太過復雜,而科學家目前對于DNA、酶和蛋白質之間的相互作用,以及飲食等環境因素對人體的影響都知之甚少。而此次研究可以為科學家提供更多信息。
谷歌表示,Baseline將采用匿名方式進行,搜集的數據也僅限于醫療目的。這些數據不會與保險公司分享。
盡管如此,此事還是引發了很大的擔憂。這些數據今后將為保險公司帶來巨大的價值,他們一直以來都希望通過各類信息降低風險。除此之外,還有人可能會在招聘和結婚時參考相關數據。
Baseline將聘請杜克大學和斯坦福大學的醫學院對其進行監督,由他們控制信息的使用方式。
7月8日下午消息,阿里云計算發布大數據產品——ODPS。通過ODPS在線服務,小型公司花幾百元即可分析海量數據。ODPS可在6小時內處理100PB數據,相當于1億部高清電影。此前,全球掌握這種能力的公司僅有Google、亞馬遜等少數幾家。
阿里云ODPS團隊在一封公開信《人人都可以成為BAT》中表示:工業革命后的200多年里,人類對物理資源的利用登峰造極,對數據資源的利用卻仍處于起步階段。Google、Facebook、阿里巴巴(滾動資訊)等互聯網公司先行一步,觸碰到了大數據的魅力。然而,人類擁有的絕大部分數據還無法產生價值。
采用傳統方案處理大規模數據,一般得耗資數千萬自建數據中心,請專業技術人員維護運作。一旦數據總量超過100TB,技術挑戰會非常大。Hadoop開源運動降低了這一成本,不過自建一個像樣的Hadoop集群,仍然需要上百萬的起步資金。專業的Hadoop人才則更加稀缺。
相比而言,使用ODPS的成本和門檻則低得多。ODPS采取按量收費的模式,目前定價0.3元/GB,即開即用,一個月內免費。根據大部分公司的數據量來測算,一般每月只需花費數百元。
在對外商用之前,ODPS只是阿里巴巴內部秘密使用。阿里小貸最先將ODPS應用到商業領域。如今,超過36萬人從阿里小貸借款,最小貸款額為1元,并實現3分鐘申請、1秒放款、0人工干預。要做到這一點,阿里小貸每天得處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型,甚至得測評小企業主對假設情景的掩飾和撒謊程度。阿里小貸每筆貸款成本3毛錢,不到普通銀行的1/1000。
據悉,淘寶、支付寶等阿里巴巴最核心的數據業務,都運行在ODPS平臺。比如阿里媽媽廣告的核心算法,點擊預測模型的訓練等。ODPS商用,意味著阿里云將這種大數據處理能力對外開放,此舉將大幅降低社會創新成本。
目前,全球提供類似服務的僅有Google和亞馬遜,國內尚無同類產品可供比較。阿里云方面表示,ODPS將比Google BigQuery更強大,不僅支持更豐富的SQL語法,還將提供MapReduce編程模型和機器學習建模能力,可以服務更多應用場景。
以下為阿里云ODPS團隊公開信《人人都可以成為BAT》全文:
阿里云計算最重要的一款產品——ODPS,正式開放商用。從今天起,花個幾百塊錢,人人都能來玩大數據。
簡單來說,ODPS(Open Data Processing Service)是一項Web服務,大家不用花大錢建數據中心,就能分析海量數據。我們測過,100PB的數據任務可在6小時內跑完。這個數據量相當于1億部高清電影。
工業革命后的200多年里,人類對物理資源的利用登峰造極。第一次信息革命過去70年了,我們對數據資源的利用卻只是剛開了頭。Google、Facebook、阿里巴巴等先行一步,摸到了大數據的冰山一角。然而,人類擁有的大部分數據,還無法產生價值。
如何讓數據產生價值?先得擁有大規模處理能力,然后才是挖掘、算法和分析。傳統的做法是這樣的:租個機房,買一堆昂貴的設備搭建數據倉庫,再請一幫技術人員來維護運轉。一旦觸發bug,或者當數據總量超過100TB時,你的工程師們可能會被這些麻煩搞崩潰。
Hadoop開源系統很偉大,大大降低了成本。阿里是中國玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業務的快速發展。不過,自建一個像樣的Hadoop集群,得百萬起步資金,專業的Hadoop人才更是稀缺。門檻還是太高。
有沒有更好的方案?從2009年初,寫下“飛天”第一行代碼時,我們就堅信這一方案存在。我們用了五年時間,寫下250萬行代碼,終于在自主研發的“飛天”平臺上成功搭建ODPS。我們把數據海洋里的“水”灌進ODPS,設定好一套參數,擰開水龍頭,出來的就是“鮮榨果汁”!
100年前,福特推出了全球第一條流水生產線。一個個零部件扔進流水線,90分鐘后,一輛嶄新的汽車擺在面前。不知道福特工程師們當時是怎樣的心情。當我們擰開ODPS的水龍頭時,感受大抵如此。這個比喻還不完全恰當,福特生產線只為福特服務,一條生產線也只能生產一種車型。而ODPS任何人都可以來用,水龍頭里流出來的“果汁”,隨著原始數據和算法的改變可以千變萬化。
我們來看看ODPS都可以榨哪些“果汁”吧。
ODPS之前一直在阿里內部試用。第一個“小白鼠”是阿里小貸。你見過敢貸1塊錢給你的銀行嗎?如今,超過36萬人從阿里小貸借款,最小貸款額1塊錢,并實現3分鐘申請、1秒放款、0人工干預。要做到這一點,阿里小貸每天得處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型,甚至得測評小企業主對假設情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢。什么?你問普通銀行的貸款成本?先乘個1000再說。
華大基因,2003年國內抗SARS研究的主力軍。去年,我們邀請華大在ODPS上試了下基因測序,耗時不到傳統方式的十分之一。2010年,歐洲E.coli污染危機,測序和組裝耗時兩天以上。如果用ODPS,只要幾個小時甚至幾十分鐘。一旦未來真有生物危機爆發,人類可以贏得寶貴的破譯時間。
這么高精尖的領域你可能覺得太遙遠。說說當前最火的世界杯吧。Google拿英國體育數據提供商Opta Sports的數據,在BigQuery上跑了跑,成功預測了本屆世界杯8強名單。ODPS是一款跟Google BigQuery類似的產品,如果哪位有數據,也可以來算一算接下來的比賽。
公共領域的數據挖掘,可以用ODPS嗎?當然!結合中國氣象局的精準預報數據,高德地圖不久后就能告訴你:“前方道路已嚴重積水,您的車輛駛入可能會遭水淹,建議繞道行駛。”如今,每盒藥品上都有一張電子身份證,從生產、流通、儲存、配送、銷售到使用,全過程的數據都跑在ODPS上,一旦發現問題藥品,監管部門可以立即采取措施。我們期待未來每一桶油、每一道菜的數據都跑在ODPS上,食品安全問題需要通過創新的方式來解決。
生產電飯煲的工廠,應該跟ODPS沒什么關系吧?別說,未來還真可能有關系。手機、電視、手表、汽車、空調……這些工業時代的經典產品,現在都變成了互聯網終端。誰說電飯煲、鞋子、衣服不會呢?如果未來的制造工廠都變成互聯網公司,數據將成為最基本的生產要素。你不懂算法、不會建模、不會分析,沒關系,那些有數據分析能力的公司會幫你做。
眼下,阿里巴巴各項數據業務都在用ODPS“榨果汁”,比如淘寶在算你最中意哪個淘女郎,天貓在算你什么時候想吃車厘子,菜鳥在算卡車走哪條路可能會被雷劈,支付寶在算你何時會從屌絲變成高富帥。如果大家也想“榨果汁”,歡迎來試。ODPS的水龍頭就裝在阿里云官網aliyun.com上,一個月內免費。
The World Is Flat. 從某種意義上而言,人人都可以成為BAT,哪怕你的公司只有幾號人。我們希望,在技術這件事情上,大家變得更加平等!