半個世紀(jì)信息技術(shù)的發(fā)展,主要解決的是云計算中“結(jié)構(gòu)性”數(shù)據(jù)的存儲、處理與應(yīng)用。“結(jié)構(gòu)性”數(shù)據(jù)的特征有如你到銀行去存取款,銀行的計算機系統(tǒng)記錄著你的名字,在名字之后是你存取款的數(shù)量、時間、類型等信息。這些數(shù)據(jù)的特征是“邏輯性強”,每個“因”都有“果”.
然而現(xiàn)實社會中大量數(shù)據(jù)事實上沒有“顯現(xiàn)性”的因果關(guān)系,如一個時刻的交通堵塞、天氣狀態(tài)、人的狀態(tài)(心理與物理)等,它的特征是隨時、海量與彈性,如一個突變天氣分析包含會有幾百個PB(Petabyte,1Petabyte=1024TB)數(shù)據(jù)。而一個社會事件如喬布斯去世瞬間所產(chǎn)生在互聯(lián)網(wǎng)上的數(shù)據(jù)(微博、紀(jì)念、文章、視頻等)也是突然暴發(fā)出來。
傳統(tǒng)的計算機設(shè)計與軟件都是以解決“結(jié)構(gòu)性”數(shù)據(jù)為主。對這一類新型的“非結(jié)構(gòu)”要求一種新的計算架構(gòu)。互聯(lián)網(wǎng)時代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動通訊把人類社會帶入一個以“PB”為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代,它就是“大數(shù)據(jù)(BigData)”時代。
大數(shù)據(jù)的企業(yè)與技術(shù)一個大規(guī)模生產(chǎn)、分享、應(yīng)用數(shù)據(jù)的時代正在開啟,我們每個人都成為了數(shù)據(jù)的創(chuàng)造者和使用者,微博、社交網(wǎng)絡(luò)都是最好的例子。
工業(yè)革命以后,書籍等以文字為載體的知識大約每十年可以翻一番;1970年以后,知識大約每三年就可以翻一番;如今,全球信息總量每兩年就可以翻一番;2010年互聯(lián)網(wǎng)的數(shù)據(jù)量,比之前所有年份的總和還要多。現(xiàn)在,人類每天可以產(chǎn)生數(shù)以PB的數(shù)據(jù),從日志、微博、分享照片、傳送視頻,多種格式的數(shù)據(jù)實時、不斷地更新。在醫(yī)療衛(wèi)生、地理信息、電子商務(wù)、影視娛樂等行業(yè),每天也都在創(chuàng)造著大量的數(shù)據(jù)。
數(shù)據(jù)正在成為從工業(yè)經(jīng)濟向知識經(jīng)濟轉(zhuǎn)變的重要特征,成為新時代最關(guān)鍵的生產(chǎn)要素和產(chǎn)品形態(tài)。
代表著大數(shù)據(jù)時代的如Apple、Facebook、Amazon等公司正成為這場變革的推動力量。同時新企業(yè)也層出不窮,比如2007年才成立的Dropbox公司,創(chuàng)始人不到27歲,估值已經(jīng)超過40億美元,這是一家提供文件備份及共享服務(wù)的公司,允許用戶在不同平臺和設(shè)備之間同步并共享文件,Dropbox用戶數(shù)量超過2500萬,每天存儲的文件數(shù)量2億多個,蘋果公司曾出價8億美元想收購它未成功。
值得一提的是,這家公司最早使用的也是Amazon的S3云計算平臺,得以低成本迅速起步。Amazon云計算數(shù)據(jù)存儲服務(wù),原來只是為了利用閑置服務(wù)器資源,現(xiàn)在一年可以帶來近10億美元收入,并且供不應(yīng)求。今年初,AmazonS3云存儲服務(wù)存儲文件是2620億份,這個數(shù)字最近變成了5660億份,翻了1倍還多。目前Amazon稱自己的S3數(shù)據(jù)存儲服務(wù),擔(dān)心的已經(jīng)不是數(shù)據(jù)的存儲成本,而是更加重要的數(shù)據(jù)處理的問題。
云計算中的大數(shù)據(jù)有幾個核心要素,如數(shù)據(jù)在云端的集合與分享、個人數(shù)據(jù)的無縫連接(隨時、隨地、同步)以及數(shù)據(jù)的跟蹤分析和挖掘。
源自雅虎的Hadoop這樣大數(shù)據(jù)系統(tǒng)越來越重要,作為開源的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),Hadoop主要面向存儲和處理成百上千TB直至PB級別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的MapReduce能將大數(shù)據(jù)問題分解成多個子問題,將它們分配到成百上千個處理節(jié)點之上,再將結(jié)果匯集到一個小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。
Hadoop已經(jīng)成為AOL、Facebook、Twitter和Netflix這些公司大數(shù)據(jù)分析的主要解決方案。比如像Facebook一天的數(shù)據(jù)要比很多大公司一年的數(shù)據(jù)還要多,他們通過Hadoop收集和存儲每天生成的數(shù)百萬的文件,使用開源ApacheHive數(shù)據(jù)倉庫工具集中對這些數(shù)據(jù)進行分析。
OperaSolutions這樣的創(chuàng)新公司提供的服務(wù)更加引人注目:客戶將數(shù)據(jù)上傳到Opera平臺,Opera就會根據(jù)用戶數(shù)據(jù)池里的相關(guān)“信號”進行分析,根據(jù)每個客戶的個性化需求,Opera雇傭各行業(yè)的專家來幫助他們進行數(shù)據(jù)分析,OperaSolutions的年營業(yè)額已經(jīng)超過1億美元。
新的創(chuàng)業(yè)公司像MapR、Zettaset、Cloudera、HStreaming這些和Hadoop相關(guān)的大數(shù)據(jù)公司,在資本市場倍受青睞。它的快速成長將會成為下一個改變信息技術(shù)的力量。
大數(shù)據(jù)的經(jīng)濟意義大數(shù)據(jù)為云計算大規(guī)模與分布式的計算能力提供了應(yīng)用的空間,解決了傳統(tǒng)計算機無法解決的問題。同時這個領(lǐng)域的計算標(biāo)準(zhǔn)與軟件均剛剛起步,為全世界新型軟、硬件及應(yīng)用創(chuàng)新提供了前所未有的機會。
海量的數(shù)據(jù)需要足夠存儲來容納它,快速、低廉價格、綠色的數(shù)據(jù)中心部署成為關(guān)鍵。最近一年多來,谷歌、Facebook、Rackspace等公司都在紛紛建設(shè)新一代的數(shù)據(jù)中心,大部分都采用更高效、節(jié)能、定制化的云服務(wù)器,用于大數(shù)據(jù)存儲、挖掘和云計算業(yè)務(wù)。
數(shù)據(jù)中心正在成為新時代的“信息電廠”,成為知識經(jīng)濟的基礎(chǔ)設(shè)施。從海量數(shù)據(jù)中提取有價值的信息,數(shù)據(jù)分析使數(shù)據(jù)變得更有意義,并將影響政府、金融、零售、娛樂、媒體等各個領(lǐng)域,帶來革命性的變化。以投資Facebook而著名的風(fēng)險投資機構(gòu)AccelPartners表示:“大數(shù)據(jù)是信息技術(shù)未來發(fā)展的戰(zhàn)略走向,將催生下一代價值數(shù)萬億美元的軟件企業(yè)。”
大數(shù)據(jù)將豐富我們對世界的認識。從定量、結(jié)構(gòu)的世界,到不確定、非結(jié)構(gòu)的世界。這個轉(zhuǎn)變,使我們得以了解真實信息,提高決策水平,當(dāng)社會對自然的數(shù)據(jù)有較為完善、隨時的分析能力時,我們對事件的把握及預(yù)測能力便增強。以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段為知識生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預(yù)測會使得決策更為精準(zhǔn),這對現(xiàn)階段的中國尤其重要。
中國有著龐大的人群和應(yīng)用市場,復(fù)雜性高、充滿變化,如此龐大的用戶群體,使中國成為世界上最大數(shù)據(jù)的國家。解決這種由大規(guī)模數(shù)據(jù)引起的問題,探索以大數(shù)據(jù)為基礎(chǔ)的解決方案,是中國產(chǎn)業(yè)升級,效率提高的重要手段。
“數(shù)據(jù)銀行”與“云存儲”
“數(shù)據(jù)銀行”概念逐漸變?yōu)閼?yīng)用的試點。將有公司把我們產(chǎn)生的數(shù)據(jù)如金錢資產(chǎn)一樣,放在“數(shù)據(jù)銀行”中儲存起來。
企業(yè)計算在大數(shù)據(jù)環(huán)境中可以將已有數(shù)據(jù)和文檔向云計算環(huán)境遷移,加快云環(huán)境下的數(shù)據(jù)管理、數(shù)據(jù)挖掘等軟件應(yīng)用,進行商業(yè)模式探索和數(shù)字化決策。政府可以通過海量數(shù)據(jù)的存儲、分享,進行分析和應(yīng)用,通過數(shù)據(jù)共享和業(yè)務(wù)協(xié)同,提升辦公智能和決策效率,解決城市交通、人口管理、公共安全、醫(yī)療衛(wèi)生等諸多難題。
數(shù)據(jù)不僅代表著生產(chǎn)力,還將成為重要的資產(chǎn),或許在將來,我們留給下一代的資產(chǎn),不是銀行里有多少存款,而是信息資產(chǎn);也許10年、15年之后,會有國家的數(shù)據(jù)銀行,相對今天的財富資產(chǎn),里面保存的是我們的信息資產(chǎn)。
大數(shù)據(jù)的各種基礎(chǔ)及應(yīng)用軟件、硬件產(chǎn)品會逐步推出,而這方面中國創(chuàng)業(yè)型企業(yè)與硅谷距離也在縮短。今年底我們投資的北京超云計算機公司,將在北京亦莊與硅谷一家企業(yè)同時推出世界首臺解決大數(shù)據(jù)問題的“Hadoop”服務(wù)器。
“云存儲”將會由于蘋果的“iCloud”而逐漸流行起來。傳統(tǒng)的家電企業(yè)提供“云家電”將成為應(yīng)用熱點。大規(guī)模、海量的“云數(shù)據(jù)”中心建設(shè)會成為全球與中國下輪基礎(chǔ)設(shè)施投資重點。
無論云計算還是大數(shù)據(jù)技術(shù)與應(yīng)用,今天還是早期發(fā)展階段,相當(dāng)于上世紀(jì)80年代初的個人計算機。我們已看到它廣闊的應(yīng)用前景及改變世界經(jīng)濟的力量。但是我們?nèi)詿o法準(zhǔn)確地預(yù)知什么樣的商業(yè)模式與什么樣的企業(yè)、企業(yè)家會取得最終的成功。探索、學(xué)習(xí)與試錯是進入這個新世界之門的唯一鑰匙。