日韩成人在线网站,亚洲国产欧美91,精品久久中文字幕有码

大數據的小世界

責任編輯：vivian

2012-02-03 15:20:40

來源：企業網D1Net

原創

當我們在談論大數據和數據倉庫時，Hadoop幾乎是不可避免會被提到的。但是就像大多數的大數據技術一樣，Hadoop不是憑空出現的。

《企業網D1Net》2月3日訊當我們在談論大數據和數據倉庫時，Hadoop幾乎是不可避免會被提到的。

但是就像大多數大數據技術一樣，Hadoop不是憑空出現的，它和這一領域的其他技術有著密切的關系。Hadoop采用map/reduce技術形成一個數據框架，在上面數據被存儲并且由應用程序運行數據。它的起源可以追溯到另一種數據倉庫技術：企業搜索。

企業搜索，也稱為實時搜索，是一種數據存儲的方法，采用了搜索的概念，適用于大量的非結構化或半結構化的數據集合，比如文檔。

最完美的文件存儲系統會利用某種XML或基于SGML的標記語言來保持這些文件的內容良好和有組織性。但在現實中，文件離這種理想狀態有很大距離。這時候，“企業搜索”進場。

企業搜索產品——例如，Apache Lucene、ElasticSearch和Apache Solr——使用了一個被稱為“facets”的概念，讓你在關系數據庫中可以處理文件數據。Facets基本上是倒排索引，讓你在文檔中找到特定的信息，比如地址或其他客戶信息。

如果你有一大堆這種類型的文檔需要篩選，并且需要做一些簡單的數據挖掘或商業智能分析，那企業搜索是理想的。越是結構化的數據效果越好。企業搜索特別適用于處理諸如網絡博客這樣的文檔，因為它們的結構足夠統一可以實現更深層次的數據挖掘。

企業搜索和目前大肆宣傳的Hadoop之間的聯系在于這兩種技術的創造者：道·卡廷(Doug Cutting)。卡廷目前是Hadoop 廠商Cloudera的架構設計師，在1998年把Lucene作為Java搜索引擎庫。

但生活（互聯網熱潮）讓卡廷從他的Java項目中抽身。在2000年左右，卡廷選擇采用這種完美的搜索引擎庫，并在SourceForge上以GPL許可開放源碼。在遭受到潛在用戶的強烈抗議后，卡廷之后把許可轉到限制較少的LGPL協議。

當這個項目在2001年被邀請加入Apache軟件基金會（ASF）時，卡廷被敦促接受這個邀請，然后Lucene就成為ASF的項目，在Apache軟件許可下授權。

卡廷在Lucene上繼續努力，將該技術發展成開源Nutch的搜索引擎，這是一個完整的應用程序，而不是一個類似Lucene的平臺。Nutch也面向網絡搜索，有很多和企業搜索一樣的功能，如網頁抓取、文件格式、語言檢測以及句法分析。

但是，Nutch的強大也注定了它沒有足夠的可擴展性來搜索企業級數據集。多節點安裝，甚至低至4個節點，都被證明是難以管理。Nutch對任何超過100萬頁的空間分配和資源管理都被證明有限制。

因此，在2008年Hadoop誕生了。Hadoop采用分布式計算技術，是Nutch可以運行的新框架。Hadoop分布式文件系統，再加上MapReduce（這兩者在谷歌項目中被仿照），成為Nutch賴以運行的框架。

卡廷的Lucene不僅促進了基于MapReduce的Hadoop技術的建立，也成為其他企業搜索技術的基礎。尤其ElasticSearch和Apache Solr都是企業基于Web的搜索工具，它們都利用Lucene Java庫。

在企業搜索領域，這兩個工具哪個更好一直有很多爭論。Solr據說是速度非常快，但ElasticSearch的分布式能力意味著可以跨多個分布式資源來共享工作，從而提供相似的性能。

這項技術的演進是有趣的，但不只是從一個純粹的圈內人立場。了解這些技術如何結合在一起，將幫助用戶了解哪種解決方案更適合他們。(Vivian 編譯）

存儲大數據

2/28

2025全国医药大健康CIO大会

北京报名

3/1

2025全国消费零售CIO大会

北京报名

3/22

2025央国企CIO及数科公司峰会

北京报名

1/4

第九届中国制造业上市公司价值500强大会

北京结束

11/29

2024全国甲方IT选型大会

南京结束

9/14

2024全国制造业数智化大会

杭州结束

9/13

2024全国汽车业数智化大会

杭州结束

7/27

2024央国企CIO及数科公司大会

北京结束

6/5

2024CIOC全国CIO大会

银川结束

1/20

2024北京CIO大会

北京结束

熱門專題

優算智選——HPE ProLiant服務器

是全球最值得信賴的服務器，全球有超過100萬客戶使用。IDC的市場份額數據顯示，HPE在全球服務器總收入中排名第一，連續83個季度保持領先。

科技驅動創新行業智行千里

《2022聯想智能化轉型行業白皮書》重磅發布

引領AI發展極速計算引擎

NVIDIA和慧與新華三人工智能平臺

優算智選——HPE ProLiant服務器

是全球最值得信賴的服務器，全球有超過100萬客戶使用。IDC的市場份額數據顯示，HPE在全球服務器總收入中排名第一，連續83個季度保持領先。

科技驅動創新行業智行千里

《2022聯想智能化轉型行業白皮書》重磅發布

高端訪談

海爾智家技術總監高麗：云原生加速企業數字化轉型

海爾智家全球數字化平臺用到了哪些云原生技術產品?如何實現降本增效?在云原生技術應用方面有哪些實踐和探索?云原生技術發揮了哪些價值?在本期“云原生降本增效大咖說”中，企業網D1Net采訪了海爾智家全球數字化平臺技術總監高麗。

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

中國國際醫藥衛生有限公司數智化中心總經理馮偉在接受企業網D1Net專訪時提到：“回過頭來看，數智化建設最難的是轉思維，必須打破信息化總想去建系統的固有思維，要以平臺化思維、站在運營和業務的角度思考問題。思維轉變后，很多問題將迎刃而解。”

創維集團信息總監寧江：數據治理是數字化轉型的必由之路

創維集團信息總監寧江在接受企業網D1Net采訪時提到：“如今，站在數字化轉型的全局之下回顧過去幾十年的信息化建設，似乎建了很多煙囪，系統之間、流程之間不能共享數據，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術總監高麗：云原生加速企業數字化轉型

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

熱文推薦

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據的小世界

業務服務

網站地圖

友情鏈接

合作伙伴