Hadoop是什么?為何它如此重要?
Hadoop提供了一個用于存儲大規模數據的開源平臺。Hadoop是一個開放工具集,支持可變連接類型和數據結構。它開放給云環境中位于多個主機的分布式數據平臺。簡單地說,它是一種數據存儲方式,支持使用多個平臺和多個操作系統的多個計算機。它是一個Apache開源項目,支持搜索Web中的大數據。它是一組批處理工具,可供任何公司使用。它并不是單獨一個下載后在網站或應用中運行的應用程序。
大數據
大數據是一種現代云基礎架構,它包含了多種與其他人連接和共享信息的方法。它推動了“物聯網”的發展,如通過社交網站連接人、通過共享朋友或網絡來尋找人們之間互相認識的可能性。大數據的背后運行著人工智能,而它對于大多數人而言是完全透明的,人們不知道背后有這樣的技術。大數據位于人們日常使用的智能手機之后,然后人們通過它給移動互聯網貢獻信息,即使他們并沒有意識到這一點。
此外,大數據對于人臉識別軟件等也有貢獻。Facebook等公司利用這些技術去詢問人們是否想要給其他人或公司打上“標簽”,使軟件平臺能夠識別和認出他們。大數據會在專業網絡或約會網站中根據人們分享的興趣或職場關系將他們連接在一起;更重要的是,醫療公司同樣利用大數據去分析大規模生物數據,以實現伴隨診斷和個性化醫療。
為什么大數據很重要?
大數據的重要性體現在很多方面。首先,它可以識別人們上網瀏覽的模式,從而給特定類型的人或群組推送與訪問內容相關的廣告及發送電子郵件或社交媒體廣告。其次,它可以掃描用戶選擇屏蔽的內容,如特定類型的廣告或媒體。第三點可能也是最重要的一點,它可以根據用戶的上網瀏覽活動推薦各種網站或廣告。這可以根據廣告點擊、視頻觀看、社交網站鏈接點擊和特定關鍵詞來實現。此外,Hadoop也可以很好地整合其他數據集。微軟BI工具也支持Hadoop,它可以方便地整合多個數據工具,可以將多個設備的多個平臺協同工作。
Apache也推出了支持Hadoop的開源分布式分析引擎OLAP。它屬于一個名為Kylin的項目,目的是為了縮短Hadoop數據集的查詢延遲時間。EBay公司設計了OLAP的SQL接口,作為支持一些最大型數據集的方法。此外,Kylin還支持壓縮和編碼、簡單易用的Web界面和作業管理與監控。
Hadoop有何作用?
互聯網巨頭谷歌、Twitter和Facebook等一直都有能力利用Hadoop管理超大規模數據。Hadoop是一個用于解決大規模數據問題的非商業解決方案。Hadoop是一個分布式計算系統,底層基于Linux操作系統。這意味著Hadoop在處理數據時并不需要使用傳統的高端超級計算機,而是用許多普通計算機來處理數據。Hadoop系統能夠在任意時間處理超大規模且不斷增長的數據,而計算機網絡則是它的重要組成部分。換而言之,原來需要購買昂貴硬件和雇傭專業技術人員才能完成的工作,現在都可以在云中交由一些非專業人員完成。增加業務效率就可以在不增加員工數量的前提下完成更多的工作。大數據的設計初衷就是這一點。除了財務和銷售,許多公司還使用大數據解決方案跟蹤員工和內部流程。為什么呢?因為這些數據可以幫助他們發內部的“漏洞”,發現員工在哪些方面最需要改進和幫助。這自然就轉化為開展定制培訓或精簡組織結構。用大數據構建的內部藍圖清楚地告訴人們:業務決策完全可以變成一種輕松愉快的過程。
因此,為業務發展提供幫助是Hadoop的一個重要任務。它依靠各種相對廉價的計算機。如果有一臺計算機出現問題,那么更換它也比更換一直使用的大規模超級計算機容易得多。Hadoop包含一組工具,而不只是一個提供數據管理功能的軟件。它也是一個開源平臺,這意味著它可以根據公司需求而擴展,并且不需要大規模硬件或軟件投入。
總結
只要有許多用戶使用網站來完成數據庫管理及其他工作,Hadoop就可以完成任何數據庫需求。Hadoop可以根據公司特定產品的用戶反饋而擴展使用任意數量的公司物理主機,并且一切都會在公司運營主管的指示下進行。