精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

揭秘“大數據”走紅背后的故事

責任編輯:vivian

2012-08-10 09:38:15

摘自:網絡世界

那一個個關于大數據的傳奇故事,一樁樁爭奪大數據制高點而展開的并購案,一個接一個輪流發布大數據戰略的IT廠商,還有那一場場以大數據為主題的各種研討會,無一不在宣告……

這些日子,能和云計算相媲美的時髦名詞,恐怕就是大數據了。

仿佛只是一夜之間,“大數據(Big Data)”火了。

那一個個關于大數據的傳奇故事,一樁樁爭奪大數據制高點而展開的并購案,一個接一個輪流發布大數據戰略的IT廠商,還有那一場場以大數據為主題的各種研討會,無一不在宣告,IT界又迎來了新的興奮點、新的機遇,同時,也是新的挑戰。

“數”中自有黃金屋

嚴格地說,大數據并非一個新詞,被譽為“數據倉庫之父”的Bill Inmon早在上個世紀90年代就經常將“Big Data”掛在嘴邊了。大數據之所以在近一兩年迅速走紅,要歸結于互聯網、移動設備、物聯網和云計算的迅猛發展,使得人類每分每秒都在產生巨量數據——從出現文明到2003年,人類總共才創造 5 EB(5 ExaBytes)的數據,但是我們現在僅在兩天內就創造出相同的數據量。來自IDC全球存儲及大數據研究項目副總裁Benjamin Woo表示,到2020年,全球數據使用量預計暴增44倍,達到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數據。

但是大數據并非單指數據量之大。對于大數據,IDC的定義是:“為了更經濟地從高頻率獲取的、大容量的、不同結構和類型的數據中獲取價值,而設計的新一代架構和技術。”人們普遍將該定義概括為四個V,即更大的容量(volume,從TB級躍升至PB級,甚至EB級)、更高的多樣性(variety,包括結構化、半結構化和非結構化數據),以及更快的生成速度(velocity)。前面三個“V”的組合推動了第四個因素——價值(value)。

關于大數據所蘊含的價值,有許多為人所津津樂道的故事可以佐證:

美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結構化數據分析公眾情緒,再將情緒曲線與道瓊斯工業指數進行對照分析,發現可以提前3~4天預測股市大盤走勢。基于此,他們已經推出了歐洲第一只基于社交媒體的對沖基金。

 

(單位:百萬美元)

 

又例如,英國的科學家根據Twitter的數據來跟蹤流感的爆發。他們主要基于用戶發布信息中的關鍵詞,例如“我頭痛”等,并結合用戶的發布地點,按區域與英國衛生部的官方數據進行了比較,最終建立起一個預測模型。創業團隊“SickWeather”甚至以預測疾病為主題開展了自己的創業項目。

象這樣的大數據經典案例還有不少,而整個商業社會對大數據將帶來的影響給出了極高的評價——

麥肯錫全球研究機構在2011年5月發布的《大數據:創新、競爭和生產力的下一個前沿領域》中表示,充分利用大數據可幫助全球個人定位服務提供商增加1000億美元收入、幫助歐洲公共部門的管理每年提升2500億美元產值、幫助美國醫療保健行業每年提升3000億美元產值,并可幫助美國零售業獲得60%以上的凈利潤增長。

在今年年初的瑞士達沃斯論壇上,一份題為《大數據,大影響》(Big Data,Big Impact)的報告宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。

而《華爾街日報》在文章《科技變革即將引領新的經濟繁榮》中更是大膽預測:“我們再次處于三場宏大技術變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數據、智能制造和無線網絡革命。”

更加值得關注的則是,美國已經把大數據上升到了國家戰略的層面。根據美國白宮今年3月29日新聞,奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,希望增強收集海量數據、分析萃取信息的能力。

在我國,大數據作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2012年12月8日工信部發布的物聯網“十二五”規劃上,信息處理技術作為四項關鍵技術創新工程之一已經被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外三項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與大數據密切相關。

大數據的價值和重要性已經毋庸置疑,但大數據究竟帶來了哪些新的技術趨勢,它對當前IT產業的勢力格局會造成何種影響,更關鍵的是,每個企業如何才能獲取大數據中的“寶藏”?則是我們真正關注的焦點。

淘金的工具、流程與方法

作為一門新興科學,大數據帶來新的挑戰的同時,催生了許多新的技術和趨勢。

“現有的軟件和工具主要適用于以結構化數據為主的傳統數據,要想及時捕捉、存儲、聚合和管理這些大數據,以及對數據進行深度分析和挖掘,我們不得不需要新的技術和能力。”英特爾亞太研發有限公司總經理何京翔說。

 

英特爾亞太研發有限公司總經理 何京翔

 

這些新技術包括分布式緩存、基于MPP(海量并行處理)的分布式數據庫、分布式文件系統、各種NoSQL分布式存儲方案等,而其中最炙手可熱的新技術就是Hadoop。

Hadoop主要由HDFS、MapReduce和Hbase組成。 它是一個分布式系統基礎架構,由Apache基金會開發,用戶可以在不了解分布式底層細節的情況下開發分布式程序。簡單地說來,Hadoop是一套開源的、基礎是Java的、能夠讓數千臺x86服務器組成一個穩定的、強大的集群,對Pb級別的大數據進行存儲、計算的軟件平臺。谷歌、雅虎、亞馬遜、Facebook,以及國內的淘寶、百度等都采用了Hadoop技術來處理海量數據。

盡管Hadoop是開源軟件,但英特爾、IBM、Cloudera等廠商都推出他們各自的Hadoop特別發行版本。這些特別發行版本一般都會有一些附加特性,比如高級管理工具及相關的支持維護服務,主要適合企業用戶。畢竟絕大多數企業用戶都和互聯網公司一樣具有強大的技術實力,采用具有商業支持的開源Hadoop技術能夠快速切入到大數據應用中去。民生證券技術總監顏陽就特別強調:“做大數據的分析與應用,全靠企業自身的話還是很有難度,也不見得是最省事的方式,而且最核心最有價值的工作其實是建立分析模型。因此,我建議企業用戶在大數據平臺建設上借助商用的大數據解決方案或有商業支持的開源技術,從而將更多的精力投入在商業模式上。”

 

民生證券技術總監 顏陽

 

在大數據的具體處理流程上,人文科技創始人吳朱華表示:“大數據的處理流程一般包括采集、導入、分析、挖掘四個階段,每個階段都有許多挑戰。”

 

人文科技創始人 吳朱華

 

例如,在采集來自各種客戶端(Web、App或者傳感器形式等)的數據的階段里,最大挑戰在于并發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作(比如火車票售票網站和淘寶),所以需要在采集端部署大量數據庫才能支撐。采集完數據后,還要將數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并在此基礎上做一些簡單的清洗和預處理工作。“導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。”吳朱華說。

接下來主要是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求。其中,對半結構化、非結構化數據的處理與分析就是Hadoop大顯身手的時候了。但這一階段由于涉及的數據量大,對系統資源,尤其是I/O資源的消耗量會很大。

最后數據挖掘階段就涉及到各種算法與模型了。由于用于挖掘的算法很復雜,并且計算涉及的數據量都很大,對底層計算資源的要求將比較高。

“從大數據處理流程就可以看出,我們需要為大規模分布式數據密集型作業而設計的計算系統,需要經濟高效智能的存儲,需要可快速導入大型數據集然后復制到各節點進行處理的網絡基礎設施,需要保護高度分布式基礎設施和數據的安全能力,以及那些擁有統計數據、算法、數據挖掘和可視化技術識別機會的專家團隊。總之,大數據是一個端到端的全面解決方案,涉及到服務器、存儲、網絡、軟件等各個環節。”何京翔說。

當談到如何著手大數據應用實踐時,吳朱華建議企業用戶要找準切入點。最好是找到一個技術難度小,并且有一定的商業價值的場景來做大數據技術落地的試點,并不斷地進行測試和迭代來驗證,而不是一味求復雜、求大,這樣比較容易說服企業管理層來進行長期的投入和支持。

此外,他還強調:“盡量不要走平臺思路,應以具體的應用和場景為主。因為建一個平臺有很多附加的成本和設計,例如,亞馬遜的云平臺是通過至少五年時間構建而成。特別是項目初期,不建議走平臺這個方向,而是應腳踏實地以具體的商業場景為主。”

關鍵趨勢:企業級市場積蓄大數據商機

無論是國內還是國外,對大數據展開率先研究與應用都是互聯網公司,因為互聯網公司最先面臨來自海量、多樣化的數據的壓力。但是,IDC中國企業級系統與軟件研究部高級研究經理周震剛表示,大數據的一個重要趨勢就是,由網絡處理走向企業級應用。

 

IDC中國企業級系統與軟件研究部高級研究經理 周震剛

 

“未來幾年,我們將看到大數據應用將從互聯網逐漸向更多的行業發展,所以未來對基于數據流的監測和分析將有更多的需求。”周震剛說。例如,電信運營商利用大數據技術對用戶的行為習慣進行分析,就能更有針對性地制訂市場營銷計劃或開發出更多全新的商業模式和服務;金融行業能借該技術更快速地分析在金融機構之間交換的營銷與交易數據,以確保交易的安全可靠和防欺詐;智能城市及物聯網領域則可借大數據技術更快實現智能交通監控、智能公共安全、氣象和污染變化的智能監控及預測等應用。

事實上,大數據向企業級應用的遷移趨勢已經初步顯示。例如,中國東方航空信息部總經理嚴振紅告訴記者,他們已經密切關注大數據,正在做一些研究性工作;民生證券早已于去年開始了實驗性質的大數據應用研發;而中國聯通則是非互聯網用戶中走得比較超前的兩家企業。

據中國聯通研究院副院長黃文良介紹,由于此前難以向用戶提供上網記錄查詢服務,中國聯通曾一度為3G服務客戶數據流量所引發的計費爭議所困擾,而通過采用基于至強平臺及英特爾發行版Hadoop的大數據解決方案,中國聯通目前已在移動通信用戶上網記錄集中查詢與分析支撐系統的建設上獲得了重要進展。這也是電信行業首次將Hadoop/HBase引入商用電信服務系統建設中。

“這一系統可為我們的客戶服務人員提供客戶上網記錄的快速查詢服務,或為客戶本人提供高效的異常大流量上網記錄自助查詢服務,這將有助于解決流量投訴問題,”黃文良表示:“未來該系統還有望幫助我們更為準確地把握用戶偏好,從而讓我們能更有效地制定市場策略和開發新業務。”

 

中國聯通研究院副院長 黃文良

 

隨著大數據向企業級應用的深層次滲透,周震剛表示還將可能帶來兩大新的變化。

一是大數據將創造細分的市場。數據分析、數據代理將可能作為一種服務出現,專門面向數據分析人才培訓的市場也會隨之火爆。當然,肯定還有一些目前無法想象的細分市場涌現出來。

二是將可能出現打包的大數據行業應用。“從傳統概念來講,大數據太復雜了,無法形成打包好的分析應用,但是在未來幾年中,某一個行業的應用會形成一定的共性,將會有廠商根據行業的分析應用,打包好一些分析的應用,然后將基于大數據的分析應用推廣到行業方面,這不僅需要做數據分析的專長,也需要很多行業方面的專業知識,將會有很多行業的ISV加入到大數據行列中,基于大數據平臺開展他們的大數據分析應用。” 周震剛說。

事實上,有些動作敏捷的IT公司已經開始與一些專注于特定行業需求的本地系統集成商協作,開始構建專為相關行業應用優化的大數據解決方案。例如,英特爾正在支持2011年奪得全世界視頻監控產品市場份額第一,并在全球安防領域內擁有最大規模研發中心的海康威視,去開發和推廣基于至強平臺和英特爾發行版Hadoop的大數據處理方案,以滿足平安城市和智能交通應用對海量非結構化數據進行高效處理的要求。

總之言之,大數據市場正在積蓄無限商機。根據IDC的預測,到2015年,全球大數據市場規模將從2012年的20億美元增長至160億美元。無疑,企業級市場將對此增長貢獻良多。

征戰新藍海 IT廠商布局忙

擁有廣闊市場發展前景的大數據儼然成了一眾IT廠商心中的新藍海,IT廠商們早已開始為此排兵布陣。他們或發布戰略、或推出產品,各種合作、收購動作頻頻,著實熱鬧。

例如,2010年IBM收購了數據分析公司Netezza,并在去年5月推出了InfoSphere BigInsights軟件(該軟件包包括Apache Hadoop發行版);惠普不僅將Vertica攬入懷中,還重金收購了對Autonomy,并于今年推出了與Vertica 6實現高級集成了的大數據應用平臺HP AppSystem for Apache Hadoop;EMC自收購Greenplum后,很快發布支持大數據分析的下一代EMC Greenplum統一分析平臺;甲骨文則通過NoSQL數據庫和Big Data Appliance(大數據機)讓客戶直接擁有處理非結構化海量數據的能力;而HANA則讓SAP享有風光無限;戴爾選擇聯手Cloudera躋身Hadoop陣營;微軟已推出了基于Azure云平臺的Hadoop服務;就連傳統芯片廠商英特爾也宣布,不僅繼續打造的高效IT基礎設施,還推出了針對英特爾平臺優化的Hadoop產品和服務。

市場研究Wikibon認為,得益于深厚的積累,IBM、英特爾這些老牌勁旅目前還是占據了優勢地位。根據該公司的調研報告,IBM所占有的大數據市場份額最大,總價值約10億美元,英特爾的大數據運營收入為7.65億美元,惠普則位列第三,分得5.5億美元。

此外,Cloudera、Splunk 、Clustrix、1010data等一些新興的大數據企業異軍突起,它們力爭在未來龐大的市場需求中打拼出自己的創新空間。不過,令人較為遺憾的是,國內類似的大數據創新企業還比較少,希望這一局面能夠盡早得以改變。

文章最后,請容許筆者引用戴爾服務部首席創新官James Stikeleather的一句話寄語已經蒞臨的大數據:“對于一項新技術,人們總容易高估它的短期影響,又低估它的長期效益。”

【表】IDC全球大數據市場規模與預測 2012~2015

【IDC對大數據的十大預測】

1. Hadoop邁向商業化

2. 部分早期的Hadoop項目面臨挑戰

3. 開源軟件帶來更多相關市場機會

4. 大數據推動軟件公司間的并購

5. 針對大數據的應用市場迅速增長

6. 大數據由網絡處理走向企業級應用

7. 大數據創造新的細分市場

8. 打包的大數據行業分析應用出現

9. 大數據推動基礎架構向Scale-Out發展

10. 中國成為全球最重要的大數據市場之一

【關于Hadoop,你應該知道的8個事實】

事實1:Hadoop是由多個產品組成的。

人們在談論Hadoop的時候,常常把它當做單一產品來看待,但事實上它由多個不同的開源產品共同組成,這些產品都是Apache軟件基金會的項目。

事實2:Apache Hadoop是開源技術,但專有廠商也提供Hadoop產品。

由于Hadoop屬于開源技術,可免費下載,所以英特爾、IBM、Cloudera等廠商都可以推出他們各自的Hadoop特別發行版本。這些特別發行版本一般都會有一些附加特性,比如高級管理工具及相關的支持維護服務,特別適合企業用戶。

事實3:Hadoop是一個生態系統,而非一個產品。

Hadoop是由開源社區和各個廠商共同開發和推動的。具體說來,廠商的Hadoop產品的結構化和關系性更強一些。

事實4:HDFS是文件系統,而不是數據庫管理系統。

經常有人把二者混為一談,但其實并非如此,能夠對數據集進行管理是數據管理系統很重要的特性之一,這一點HDFS是不具備的。而且,在數據庫管理系統中,我們通過查詢索引可以實現對數據的隨機訪問,它往往處理的是結構化的數據,而在Hadoop中不會處理這樣的數據類型。

事實5:Hadoop的意義不僅僅在于數據量,更在于數據的多樣化。

有人把Hadoop歸類為海量數據處理技術,但是Hadoop真正的價值卻是對多樣化數據(主要指半結構化與非結構化數據)處理的能力。

事實6:Hadoop是數據倉庫的補充,不是數據倉庫的替代品。

Hadoop對多樣化數據類型進行管理的能力使得“數據倉庫將死”的言論四起,但其實并非如此,傳統數據倉庫在其領域中的性能仍然出色,Hadoop對數據倉庫技術是補充的作用。

事實7:大數據不一定非Hadoop不可。

別看現在大數據和Hadoop已經密不可分,但Hadoop并不是大數據的“唯一”。許多其他廠商的產品,如Teradata、Sybase IQ(被SAP收購)和Vertica(被惠普收購)等都適用于大數據分析。

事實8:Hadoop不是“免費午餐”。

雖然Hadoop屬于開源技術,但其實有許多隱形開銷。由于Hadoop在管理工具與支持服務方面的不足,企業在使用過程中很容易產生額外費用。另外,由于它沒有優化程序,企業用戶只能請專業人士在運行環境中手寫輸入代碼,而這些專業人士的薪酬價碼都不菲,更不用提部署Hadoop集群的硬件及相關配置的成本。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 资兴市| 永城市| 江达县| 荃湾区| 庐江县| 武宁县| 偃师市| 仪征市| 乐昌市| 慈利县| 房产| 亳州市| 蒲城县| 通渭县| 正镶白旗| 山西省| 宁南县| 鄱阳县| 兖州市| 吉首市| 景德镇市| 中宁县| 池州市| 略阳县| 漳平市| 剑河县| 神池县| 汨罗市| 封开县| 盐源县| 吕梁市| 舒兰市| 察隅县| 延安市| 晋州市| 雷山县| 北安市| 宜宾市| 如皋市| 安顺市| 七台河市|