除夜數據作為 IT 領域的一個概念已被許多人所認同。正如 IT 領域的許多方面一樣,熟手在行藝最初由除夜型企業先行使,然后在悉數行使曲線的晚期,中小型企業才最先行使它。除夜數據恍如也經驗了溝通的進程。
跟著除夜數據在真實世界中賡續成長,它慢慢被運用于不那末除夜的數據元素。除夜部份尺度以為較小的數據集正直由進程特定于除夜數據架構的體式格式被除夜數據對象處置責罰。
雖然如斯,人們不合以為未來會有更多的數據,而不是更少;更多半據源會將數據發送給企業,數據運動速度將有增無減。這就是除夜數據未來的用武之地。關于這個領域,泛起的一個成就是除夜數據將位于何處(在內部照樣在云中)和您必需在哪些時辰斟酌選擇行使這些干事。
基于云的除夜數據處置計劃的界說
像處置責罰云的除夜部份化決計劃一樣,準一界說云可以有些辣手。除夜數據領域存在許多不合的云特色,沒有一個界說是通用的(但一些界說比其他界說更好)。
首先,讓我們來玩一個文字游戲。當傳入數據的數目、品種和速度太除夜,致使于難以實時處置責罰和行使當前的關系數據庫時,就會抵達除夜數據形態。在 除夜數據項目中安裝一些手藝是對處置責罰該前提和供應富有成效地行使該數據的新方法的考試考試,而這意味著需求行使一些硬件并供應一種組織數據以便疾速存 儲和疾速讀取數據的新方法。這就是除夜數據的實質。
它也是 Apache Hadoop、MapReduce 和相反的項目和產物存在的情由。基于云的除夜數據情形需求可以引用內部數據,好比企業成本計劃零星和其他內部數據庫,活期行使新穎數據來更新它。(這里的內部 泄漏表現除夜數據沙盒之外的地方。)
這一步擔負數據的 “存儲”。接上去您需求獲得一種剖析它將在何處影響營業流程并展現剖析效果的方法。
除夜數據干事需求可以檢查數據中央內部的各類不合的數據源,可以將新數據包括在數據中央內,原諒還沒有斟酌過的新數據元素,并供應一種剖析和申報一切這些數據的方法。可伸縮性、無邪性和可擴展年夜性方面的需求使它更適合除夜數據情形,而不是云干事。
最先完成基于云的除夜數據項目
這些斟酌成份涵蓋了完成除夜數據項目的根抵評價前提。啟動、實行和賡續進修,您供應的關于想從除夜數據獲得的信息的界說越多,您的實行就越有針對性,您就可以越快地蘊蓄技巧手段集。
1. 對一切機械數據豎立通用的實時索引
這是除夜多半人所以為的除夜數據的焦點;它經常相當于開源項目 Hadoop(參閱 參考資料)。不要將 Hadoop 中的索引與關系數據庫中的索引弄攪渾:Hadoop 索引是一種文件索引。是以,Hadoop 可獲得許多不合類型的數據。
公司可以已被來自射頻 ID (RFID) 挪動、網站點擊和其他可以組織化的數據(假定 IT 人員花一些時辰將它們轉換為組織化數據并放在關系數據庫中)的要求所漂浮。假定您曉得將若何行使這些數據,若何在未來查詢和接見它,那末在處置責罰這些提 綱方面中止投資是值得的。
您無需曉得數據的未來蔭蔽用途,Hadoop 供應意見決裝備。經由進程按原樣獲得傳入的數據,除夜數據將數據界說步驟推遲到了實行剖析時。在不會限制數據的未來行使的情形下,Hadoop 將數據散布在許多干事器上并延續跟蹤數據位置。
2. 對實時數據和歷史數據的自由查找與剖析
存儲數據只是完成目的的路途的一部份。其他一方面是信息需求絕對隨意疏忽地被找到。為此,最快的方法是供應一種疾速(在完成方面,而不是呼應時辰方面)查找功用。是以需求找到支持對非組織化數據中止文本查找的對象。Apache Lucene(參考資料)就是一個在除夜數據情形中供應文本索引和查找的經常運用對象。
從扼守軌范上直接獲得呼應,這會讓人們恍惚地以為一切信息都被準確存儲且可以接見。此進程的治理步驟是為存儲在散布式節點中的數據內容豎立索引。查找查詢,然后并行接見散布式節點上的索引,以便供應更快的呼應。
3. 自動從數據中發明有用的信息
這是收受接管除夜數據計劃的一個主要營業啟事。就像沒法高效地將一切半組織化數據都遷移到關系數據庫中一樣,實行手動查找和手動申報也會影響剖析效率。
數據挖掘和猜測剖析對象正在疾速向以下傾向成長:可以將除夜數據用作剖析數據起原的數據庫,或用作延續扼守交換的數據庫。所罕有據挖掘對象都遵照此 目的。某小我一定剖析的用途,檢查數據,然后墾荒能供應洞察或猜測的統計模子。然后,需求將這些統計模子安裝在除夜數據情形中,以實行延續評價。這部份操 作理應是自動化的。
4. 扼守數據并供應實時警告
尋覓一個對象來扼守除夜數據中的數據。一些對象可以樹立被延續處置責罰的查詢,尋覓要知足的前提。
我沒法列出實時扼守進入 Hadoop 中的數據的一切可以用法。假定除夜部份傳入數據都長短組織化數據,而且不適用于關系數據庫,那末實時扼守多是最仔細地搜檢數據元素的一種體式格式。
例如,您可在將冷凍食物中的 RFID 芯片存儲于非冷凍區域時設置一個警告。該警告可直接發送到倉庫中行使的挪動配備,預防食物腐臭。
客戶在商號中的走動也是可扼守的,可在具有計策性結構的扼守器上播放針對站立在特定商品前的客戶的廣告。(這個異常新潮,可以略微有點平易近主意味,但完整可以完成。)
5. 供應丁壯夜的專屬申報和剖析
相反于常識發明和自動化的數據挖掘,剖析師需求獲得接見能力來檢索和匯總除夜數據云情形中的信息。具豐除夜數據申報對象的供應商恍如天天都在增多。
一些對象行使了 Apache Hive 和 Hive Query Language(HQL;參閱 參考資料)。HQL 語句相反于組織化查詢措辭 (SQL) 語句,許多供應相反氣勢氣宇的除夜數據申報的對象行使了 HQL 和 Hive 接口,經由進程 MapReduce 運轉查詢。
Apache Pig 是其他一個申報和操作除夜數據的開源項目。它的語法與 SQL 不太一樣,更像是一種劇本措辭。它也行使 MapReduce 處置責罰來簡化并行處置責罰。
基于云的除夜數據供應商應同時支持來自內部要求者的 Pig 和 HQL 語句。這樣,除夜數據存儲即可由人們行使本人選擇的對象(甚至行使還未樹立的對象)來查詢。
6. 供應疾速構建自界說儀表板和視圖的能力
像傳統的商業智能項目的演化一樣,當人們可以查詢除夜數據并生成申報時,他們進展自動化該功用并樹立一個儀表板,以便經由進程時興的圖片一再檢查。
除非人們編寫本人的 Hive 語句和僅行使 Hive shell,除夜部份對象都有行使查詢語句樹立相反儀表板的視圖的能力。要在除夜數據安裝中枚舉許多儀表板示例,今朝還為時過早。一種基于商業智能歷史的 猜測是,儀表板將成為已匯總的除夜數據的一個主要的內部傳遞對象。而且從商業智能的歷史成長來看,具有優越的除夜數據儀表板對獲得和貫串銜接高層導游支持 至關主要。
7. 行使淺易硬件中止高效擴展年夜,以原諒任何數據量
當行使云除夜數據干事時,此斟酌成份更具有哲學意義,而沒有若干理想意義。推銷、配備和安裝用于存儲數據的硬件是干事供應商的職責。硬件的選擇理應不難。
然則,值得欣喜的是,賬單注解除夜數據適合行使淺易硬件。在架構中的一些節點上,“高質量的” 干事器很有用。然則,除夜數據架構中絕除夜部份節點(存儲數據的節點)都可放在 “更低質量的” 硬件上。
8. 供應細粒度、基于腳色的平安和接見掌握
當非組織化數據位于關系數據中時,接見數據的龐雜性可以會障礙人們獲得數據。罕有的申報對象不起浸染。斟酌收受接管除夜數據是簡化龐雜接見的一個有用步驟。不幸的是,一樣的平安設置常日沒法從現有關系零星遷移到除夜數據零星上。
行使的除夜數據越多,優越的平安性就會變得越主要。最初,平安珍重可以很少,因為沒有人曉得若何處置責罰除夜數據(這里略帶訕笑意味)。跟著公司墾荒出了更多行使除夜數據的剖析,需求對效果(特殊是申報和儀表板)中止珍重,這相反于珍重來自當前關系零星的申報。
最先行使基于云的除夜數據,意見需求在什么時分(具體來說為申報和儀表板情形)運用平安性。但在最初,剖析師異常自由。這是墾荒新洞察的最佳體式格式。
9. 支持多租戶和無邪的安裝
云的行使帶來了多租戶的概念,但這顯著不是內部除夜數據情形中的斟酌成份。
許多人對將癥結數據放在云情形中感應不安。而主要的是,云供應了最先完成除夜數據項目所需的低成本和疾速安裝。恰是因為云供應商將數據放在了具有同享的硬件成本的架構中,成本才會顯著下降。
天主是平允的,將數據放在您的干事器上,由其他某小我來治理悉數設置也未嘗弗成。然則,在除夜數據需求是間歇性的時辰,這不是一個經濟高效的營業模 子。效果會發生發火更高的開支,因為公司將為除夜量余暇時辰付費,特殊在完成第一個項目時期,在剖析師索求、斟酌和意見除夜數據的時辰。
10. 集成已記載的 API 并經由進程它們中止擴展年夜
許多閱讀本文的讀者可以已完成了一兩個除夜數據項目,但沒無為除夜數據編寫本人的軟件接口。請留意,這是有可以的,而且天天都在發生發火。
除夜數據是為供自界說運用軌范接見而設計的。罕有的接見方法行使 RESTful(具象形態傳輸)運用編程接口 (API)。這些 API 可用于除夜數據情形中的每一個運用軌范,用于治感性掌握、存儲數據和申報數據。因為除夜數據的一切根蒂根抵組件都是開源的,所以這些 API 經由了周全地聲名而且可以普遍行使。進展基于云的除夜數據供應商準許接見今朝和未來的一切具有適合平安珍重的 API。
最先處置責罰基于云的除夜數據
記住了這十概略害斟酌成份之后,請選擇您的除夜數據供應商。什么?還需求更多的信息?
在理想中,除夜數據項目首先會以批處置責罰方法實行我提到的除夜部份操作,將實時操作留到往后處置責罰。談到批處置責罰,我的意思是因為對象和流程都是智能的,所以除夜數據情形不需求延續運轉。建議尋覓準許憑證需求啟動和住手干事器實例的供應商,以便最除夜限制地下降成本。
安裝您本人的內部除夜數據情形還需求 Java 手藝技巧手段和經常運用的 Linux 或 UNIX 技巧手段。記住這一點,然后訊問蔭蔽的云供應商,意見有若干治理責任需求完成或它的干事有多周全。
要意見若何安裝、測試和珍重除夜數據情形,可以接見的一個站點是 BigDataUniversity.com(參考資料),您可以免費注冊該站點。站點中長達數小時的視頻是按專題來組織的,該站點還為完成許多專題的用戶供應了證書。在編寫本文時,有一本免費的電子書 Hadoop for Dummies 可供下載。
在列入培訓的同時,在一個云供應商的情形中配備一個除夜數據情形實例。BigDataUniversity.com 上的一些培訓專題引見了 IBM SmartCloud 中和 Amazon Web Services 上的除夜數據安裝和行使。這些云干事(和其他干事)除夜除夜簡化了情形的安裝和安裝。請行使 BigDataUniversity.com 上的培訓視頻,打敗將缺點其他工資首次行使而安裝和測試除夜數據的障礙。
僥幸的是,云干事從責任列表中消弭了除夜數據情形中的除夜量珍重成就。顯著,這些干事將擔負知足硬件和干事器的機房需求。您必需珍重數據,憑證成長需求添加干事器和備用數據存儲。
除夜數據對每一小我而言都是一種進修和增進體驗。新對象和不合的對象賡續泛起在市場中。商業智能領域現有的供應商正使出千般解數吸引您將他們的對象用于除夜數據后端。
行使基于云的除夜數據情形會使上手變得輕松許多。可以先行使云干事為一個小項目處置責罰除夜數據,富余行使基于云的除夜數據的易于上手的特色。立刻最先著手和進修吧。證實基于云的除夜數據的價值,然后在不久的未來自信地完成更除夜的項目。