數據無疑是當前最受關注的技術話題,它也與我們每個人都息息相關。隨著互聯網的快速發展,我們每個人以及社會應用產生的數據已經開始爆發,比如社交、交互式應用帶來了大量的網絡數據,這種非結構化數據充斥在我們周圍,包括網絡日志、電話記錄、醫療記錄、傳感器和監控數據等,各種來源的數據種類豐富,規模龐大。
以中國互聯網行業為例,龐大的網民每時每刻都在產生大數據,大數據對中國的影響也愈發明顯,從中國互聯網絡信息中心公布的最新數據來看,中國網民的數量已經超過5億,作為世界上人口最多的國家,中國產生的數據量可想而知。但很多時候,除了堆砌在存儲系統中,大數據往往也蘊藏著巨大的商業價值,這一點,一些互聯網企業數據挖掘以及商業智能化應用都已經初露端倪,也讓更多的企業看到了大數據中潛藏的巨大機會。
不僅僅是互聯網行業,放眼全行業,可以利用大數據的機會更多,比如電信運營商利用大數據技術對用戶的行為習慣進行分析,就能更有針對性地制訂市場營銷計劃或開發出更多全新的商業模式和服務;金融行業能借該技術更快速地分析在金融機構之間交換的營銷與交易數據,以確保交易的安全可靠和防欺詐;智能城市及物聯網領域則可借大數據技術更快實現智能交通監控、智能公共安全、氣象和污染變化的智能監控及預測等應用。
一方面,大數據的爆發帶來了巨大的機遇,另一方面,從繁雜的大數據中挖掘有效信息也將是巨大的挑戰,因為長期以來,企業中存儲和處理的通常都是結構化數據,對于非結構化數據的處理,此時傳統的硬件設備已經開始顯得捉襟見肘,無法滿足這種龐雜數據帶來的應用需求。
大數據對IT解決方案提出更高要求
所謂大數據,首先是數據量很大,已經從TB級躍升至PB級;其次區別于傳統的數據結構和類型,數據結構和類型更加復雜,超過80%都是非結構化數據,比如網上的流媒體數據、物聯網中RFID感應數據以及社交網絡上產生的各種數據等。隨著非結構化數據持續不斷地增加,并且需要長時間存儲,非熱點數據也會被隨機訪問,這種情況與傳統的、基于關系型數據庫的核心數據存儲方式有顯著的差異。這種差異使得傳統的數據存儲和管理解決方案無法勝任大數據時代的分析、管理和挖掘工作。
此外,傳統的關系型數據庫以及數據分析軟件處理的結構化數據通常是GB級別的,很難適應大數據時代TB、PB級復雜數據類型的檢索分析。同時,因為數據每時每刻都在快速增長,傳統解決方案也無法適應這種近乎無限的擴張性。為了適應大數據時代的到來,企業需要硬件、技術、應用等各個層面做好準備,才能滿足大數據收集、存儲、管理和分析的要求。
那么,大數據時代下IT解決方案應該具備怎樣的要求呢?首先必須支持數量龐大的用戶和數據生產者,能夠從企業及社區網絡、移動智能終端、傳感器及物聯網、定位及地理信息設備中獲得大量的非結構化數據,包括視頻、語音、圖片、文字等,并對這些海量復雜數據進行分析和挖掘,從而獲得真正有價值的數據用于后續的經營。這種應用模式,要求大數據時代的IT解決方案具備可變的數據接口和高效的數據導入、管理、分析、統計技術,在數據規模上能夠支持PB級別的數據,在數據類型上支持非結構化以及結構化數據,速度上支持每秒萬次級查詢,擁有更高的系統可靠性以及更高的統計分析效率。
除了同時支持大規模非結構化和結構化數據,更快速、靈活及穩定的檢索分析,低成本的存儲和管理能力也必不可少,這無疑對計算能力、數據處理能力和管理能力提出了非常高的要求。在應對大數據處理難題面前,硬件和軟件都將發揮自身的價值,因為要實現大數據的高效挖掘和分析,除了高性能、可靠的硬件平臺,軟件層面的優化支持也必不可少。目前已經有不少廠商在努力圍繞大數據開發整合解決方案,英特爾就是其中之一。
從開放平臺到大數據生態圈
從目前企業計算領域來看,英特爾架構是承載和實現大數據的理想平臺,英特爾架構廣泛的普及率可以為企業提供更高的一致性。英特爾至強處理器擁有更高的計算性能和內存數據處理能力,以及其為核心服務器和存儲系統提供開放式的擴展性,非常適合應對大數據的挑戰。
在實現大數據處理的過程中,基于英特爾至強處理器的平臺具備開放式、易優化、靈活易擴展等特點,是實現大數據應用的出色載體。對于數據分析來說,英特爾的雙路至強處理器已經通過實踐驗證了自身在計算能力的領先性,并為基礎的主流服務器和存儲系統提供無可比擬的擴展性。對于商業智能來說,基于英特爾至強處理器的多路平臺則具備高性能、高能效、靈活擴展以及高性價比等優勢。
除了基礎硬件平臺領域,英特爾還具有Hadoop這種分布式運算架構的軟件方案,也將對大數據的處理提供更高的效能。我們知道,Hadoop對海量數據處理的支持,可以讓用戶不再依賴價格高昂的大型專有設備,而是利用較高性價比的x86服務器來搭配并行計算架構,從而以更加經濟的方式完成龐大的計算任務。
英特爾Hadoop發行版軟件方案通過優化底層算法,可實現更高的應用效率和更均衡的計算存儲分布;加上與英特爾硬件技術相結合,可以提供更高的平臺性能。同時,還能提供跨數據中心的HBase數據庫虛擬大表功能,并實現HBase數據庫復制和備份功能,在功能方面也更適應大數據時代管理分析的需要。這一切,都為收集數據、分析數據、優化數據、利用數據提供了堅實的基礎,相對來說,就攻克大數據這一IT難題,英特爾已經形成了完整的大數據存儲和管理平臺。
隨著大數據技術、應用和市場發展的逐步深入,關于英特爾在大數據領域扮演的角色,英特爾軟件與服務事業部中國區總經理何京翔曾這樣說過:“一方面英特爾提供高效的計算芯片、存儲、IO、網絡技術,以加速大數據價值挖掘與提高決策反應,同時提供最優的軟件和工具,以推動大數據應用部署與創新;另一方面,英特爾將促進大數據生態系統建設,與廣泛的合作伙伴合作,并且進一步持續投資大數據解決方案的研究與服務。”
作為上游的芯片廠商,英特爾深知大數據時代唯有合作方能共贏的道理。在PC產業中,英特爾具備多年的生態系統構建經驗,并以實際的市場表現證明了這一點。在產業鏈中,英特爾深入到 OEM廠商、ISV、SI甚至用戶身邊去,將產業鏈上的每一節點都緊緊扣在生態系統周圍,目前,這個生態系統正呈現出蓬勃發展的態勢。
憑借自身在大數據分析方面的領先地位,英特爾還致力于幫助企業用戶或機構更好地了解自身,以及如何利用大數據分析來更快速地制定決策和解決復雜問題。英特爾分布式分析愿景就提供了一種創新途徑,來幫助企業從無處不在的數據中獲得出色價值。
在與各行業組織、生態系統的合作上,英特爾也十分活躍,并與合作伙伴來共同挖掘對大數據分析的需求與潛力。在電信、石油、交通、醫療以及制造業大數據特征明顯的行業,英特爾也將其生態系統上每一節點的力量發揮到極致。
很多人知道英特爾已經成立了軟件部門,這個部門將與英特爾研究院、數據中心部門一起合作,來共同研發大數據平臺和工具。在未來,除了繼續提供現有產品來支撐大數據IT基礎設施,英特爾還將針對大數據整體應用架構進行創新規劃,通過自身和合作伙伴的努力來共同把握時代機遇,深挖大數據價值,推動整個大數據產業的發展,打造更加完善的大數據生態圈。