精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

重磅!2017大數據十大趨勢

責任編輯:editor004 |來源:企業網D1Net  2017-02-17 10:55:52 本文摘自:物聯網智庫

黑科技,大數據

隨著對不同類型、不同體量數據的結構化存儲、批量處理以及價值挖掘需求的增多,2016年注定是大數據里程碑式的一年。

2017年,支持大量結構化和非結構化數據的系統將繼續增長。市場需要數據平臺來幫助數據管理人員管理和保護大數據,同時允許最終用戶進行數據分析。這些系統將逐步成熟,在企業內部的IT系統中更好地運行。

1、數據處理變得更加快速,數據也變得更加易于使用

選項擴展將加速Hadoop

當然,你可以在Hadoop上執行機器學習和情緒分析,但人們常常會問的第一個問題是:交互式SQL(結構化查詢語言,一種數據庫查詢和程序設計語言,用于存取數據以及查詢、更新和管理關系數據庫系統)究竟有多快?畢竟,SQL相當于企業用戶的“導管”——他們希望使用Hadoop數據來更快的獲得可復用的BI儀表盤(一種向企業展示度量信息和關鍵業務指標即KPI現狀的數據虛擬化工具),或者是進行一些探索性分析。

這種對速度的需求促使用戶采用訪問速度更快和執行效率更高的數據庫,如Exasol、MemSQL,或者是類似于Kudu這種基于Hadoop的商店,當然還需要能夠更快查詢數據的技術。諸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(AtScale,Jethro Data和Kyvos Insights)這樣的數據查詢加速器將進一步模糊傳統數據庫與大數據世界的邊界。

2、大數據不再只是Hadoop

專門基于Hadoop開發的工具已過時

在過去的幾年中,隨著大數據浪潮來襲,數種為了滿足Hadoop分析需求的技術興起。但是,身處復雜,異構環境中的企業不再希望僅為一個數據源(Hadoop)采用孤立的BI訪問點。他們需要的答案被埋沒在一大堆數據源中,從記錄系統到云端,再到來自Hadoop和非Hadoop源的結構化和非結構化數據。(順便說一句,甚至連關系型數據庫也正在為大數據趨勢做準備。例如,SQL Server2016于近日添加了JSON支持)。

在2017年,客戶將會需要對所有數據都進行分析。不依賴于數據源的平臺將會茁壯成長,而專為Hadoop而設計的平臺和未能跨應用部署的平臺將被棄用。Platfora的退出便是這一趨勢的預示。

3、相關組織將利用數據湖(DataLake)來實現價值

數據湖就像一個人造水庫

數據湖就像一個人造水庫。首先你要建造一個水壩(構建一個集群),然后填滿水(數據)。一旦建立了湖泊,你將開始因為各種目的而使用這些水資源(數據),如發電,飲用以及各種消遣(預測分析,機器學習,網絡安全等)。

而今,保有數據湖里的數據已經變成了一種為了保留而保留的行為。在2017年,這將隨著Hadoop業務的收緊而改變。各個組織要求可重復的并且敏捷地使用數據湖,以便更快地獲得響應。在確定對人事、數據和基礎設施的相應投資之前,企業會更加慎重的考慮業務成果。這將促進業務和IT之間的強力耦合。而自助服務平臺作為分析大數據資產的工具將獲得更深入的認可。

另外,公司還將關注業務驅動型應用,避免數據湖陷入困境。在2017年,企業機構將從“構建未來”的數據湖應用轉向業務驅動型數據應用。當今世界需要分析和操作能力去觸及客戶、處理索賠并且連接到個體的不同設備。

舉例而言,任何商業網站需要提供實時的個性化推薦和價格查詢。醫療健康型企業必須處理有效的索賠并且運用分析運營系統來防止索賠欺詐。媒體公司需要通過機頂盒提供個性化的內容。汽車制造商和汽車共享公司則要交互運營其車輛和司機。這些案例的實施交付均需要由一個敏捷平臺來實現,同時提供分析和運營的處理,跨越后臺分析和前臺運營進行整合,提升了商業價值。

4、成熟的架構拒絕通用型框架

Hadoop不再只是一個用于數據科學用例的批處理平臺

Hadoop不再只是一個用于數據科學用例的批處理平臺。它已經成為一種專為特殊分析而架設的多用途分析引擎,甚至被用于日常工作負載的操作報告——傳統上這項任務是由數據倉庫(大量數據提取和分析的工具)來處理的。

在2017年,各個組織將通過特定的用例的架構設計來滿足現存的混合需求。他們將研究一系列的因素,包括用戶角色模型、訪問頻率、數據速度和聚合級別等,然后才能提交合適的數據策略。這些現代化的參考架構由需求驅動,他們將以某種方式將最好的自助服務數據準備工具Hadoop核心和最終用戶分析平臺結合起來,以便可以根據這些需求進行重新配置。這些架構的靈活性將最終推動技術選擇。

5、推動大數據投資的是數據的多樣性,而不是體量和速

Gartner將大數據定義為“三高”

Gartner將大數據定義為“三高”:高容量,高速率,高品類的信息資產。正如New Vantage Partners最近的一項調查結果所示:雖然三個特性都在凸顯,但其中,多元化無疑正成為大數據投資的主導推動力。

隨著企業尋求整合更多來源并關注大數據的“長尾”,這一趨勢將更加明顯。從自由模式的JSON到嵌入式的數據庫(如關系數據庫和非關系數據庫),到非平面數據(如Avro,Parquet,XML),數據格式正在成倍增長,連接器變得至關重要,它將不同格式的數據變成統一的表達/它讓不同格式的數據之間實現互通。在2017年,為零散的、不同的資源提供即時連接的能力,將成為評估一個平臺能力的重要方面。

6、Spark和機器學習打通大數據的任督二脈

Apache Spark曾是Hadoop生態系統的一個組件,現在正成為大數據平臺企業的首選。

在對數據架構師、IT經理和BI分析師的調查中,近70%的受訪者表示,現有的MapReduce里邊最青睞Spark,它是批量導向的并行處理,但不適合交互式應用程序或實時流處理。

這些以大數據為基礎的超級計算能力為計算密集型的平臺提供了極大的助力,如:機器學習(ML)、人工智能(AI)、圖形算法等。尤其對于Microsoft Azure機器學習,由于上述計算能力也完全適用于初學者,并能迅速集成到現有的Microsoft平臺。向大眾開放機器學習將有助于創建更多的模型和應用程序來生成PB級數據。隨著機器學習和系統日益智能化,自助服務軟件提供商們是時候要挖掘一下大數據的力量如何變現到最終用戶身上。

7、物聯網、云服務和大數據集結起來便是自助服務的新機遇

在2017年,似乎一切都將有一個傳感器把信息送回主體

IoT正在生成大量的結構化和非結構化數據,而且越來越多的數據部署在云服務上。數據通常是異構的,并且存在于多個關系和非關系系統中,如Hadoop集群、非關系數據庫等。

雖然存儲和管理服務的創新加快了數據獲取的步伐、進程程,但訪問和理解數據本身仍然是棘手的“最后一米”。因此,對于無縫連接和組合各種云托管數據源的分析工具的需求正在增長。這樣的工具使企業實現了大數據庫的即時調取和可視化管理,,從而幫助物聯網投資者挖掘隱藏的機會。

Hadoop大數據技術案例

讓Hadoop和其他大數據技術如此引人注目的部分原因是,他們讓企業找到問題的答案,而在此之前他們甚至不知道問題是什么。包括谷歌,Facebook、LinkedIn還在內的諸多巨頭,都在幫助Hadoop改善運營效率。具體包括包括:

情感分析:Hadoop與先進的文本分析工具結合,分析社會化媒體和社交網絡發布的非結構化的文本,包括Tweets和Facebook,以確定用戶對特定公司,品牌或產品的情緒。分析既可以專注于宏觀層面的情緒,也可以細分到個人用戶的情緒。

風險建模:財務公司、銀行等公司使用Hadoop和下一代數據倉庫分析大量交易數據,以確定金融資產的風險,模擬市場行為為潛在的“假設”方案做準備,并根據風險為潛在客戶打分。

欺詐檢測:金融公司、零售商等使用大數據技術將客戶行為與歷史交易數據結合來檢測欺詐行為。例如,信用卡公司使用大數據技術識別可能的被盜卡的交易行為。

客戶流失分析:企業使用Hadoop和大數據技術分析客戶行為數據并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關系的供應商或服務商。企業就能采取最有效的措施挽留欲流失客戶。

用戶體驗分析:面向消費者的企業使用Hadoop和其他大數據技術將之前單一客戶互動渠道(如呼叫中心,網上聊天,微博等)數據整合在一起,以獲得對客戶體驗的完整視圖。這使企業能夠了解客戶交互渠道之間的相互影響,從而優化整個客戶生命周期的用戶體驗。

8、在最終用戶驅動下,自助數據預處理走向主流

Hadoop數據如何走進企業用戶,是當下最大的挑戰之一。

Hadoop數據如何走進企業用戶,是當下最大的挑戰之一。自助服務分析平臺的興起改善了這一過程。但企業用戶希望進一步簡化數據分析的流程,尤其在處理多種數據類型和格式時,這一訴求更加明顯。

敏捷的自助服務數據預處理工具不僅可以在源處預處理Hadoop數據,而且還使數據作為快照來用,從而進行簡易便捷的進一步處理。

我們已經看到了的一大批面向終端用戶的大數據預處理創新,Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學者的進入門檻,并將在2017年體現更大價值。

9、大數據成長:Hadoop增加了企業標準

Hadoop將逐漸成為企業IT環境的核心部分。

Hadoop將逐漸成為企業IT環境的核心部分。在2017年,我們將看到圍繞企業系統的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個系統,在這個系統中,我們可以強制對元數據進行細致的、按需分配的授權。

作為數據管理的一項重大創舉,Apache Atlas,讓企業可以在繁雜的數據生態系統中實行統一的數據分類。Apache Ranger為Hadoop提供集中式安全管理。

客戶開始期望從企業級RDBMS平臺獲得這些類型的功能。這些功能走在新興大數據技術的前沿,從而消除了企業關于技術迭代而被淘汰方面的擔憂。

Hadoop對數據進行細致管理、按需分配的實例

Last.fm創建于2002年,是提供網絡電臺和音樂服務的社交網絡。每個月有2500萬人使用,產生大量數據。2006年初,Last.fm開始使用Hadoop。Hadoop是Last.fm基礎平臺的關鍵組件,有2個Hadoop集群,運行數百種各種日常作業,包括日志文件分析,A/B測試評測,即時處理和圖表生成。

圖表生成:圖表生成是Hadoop在Last.fm的第一個應用。

數據從哪里來:Last.fm有兩種收聽信息:用戶播放自己的音樂,如pc或者其他設備mp3,這種信息通過Last.fm的客戶端或者第三方應用發送到Last.fm,這一類叫scrobble收藏數據;用戶收聽Last.fm網絡電臺的節目,以及聽節目時候的喜愛,跳過,禁止等操作信息,這一類叫radio listen電臺收聽數據。

數據存儲:收聽數據被發送到Last.fm,經歷驗證和轉換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂id-trackid,這首音樂被收藏的次數scrobble,這首音樂在電臺中收聽的次數radio,被跳過的次數skip。真實數據達到GB級別,有更多屬性字段。

數據處理:

Unique Listeners作業:統計收聽某一首歌的不同用戶數,也就說說,有多少個用戶聽過某個歌,如果用戶重復收聽,只算一次。

Sum作業:每首歌的收聽總數,收藏總數,電臺收聽總數,被跳過的總數。

合作作業:每首歌被多少用戶收聽總數,收聽總數,收藏總數,電臺收聽總數,被跳過的總數等。

最后,這些數據會被作為周排行榜等在Last.fm主站上顯示出來。

10、元數據目錄的建立幫助篩選出具有分析價值的數據

很長一段時間以來,公司拋棄了數據,因為他們認為海量的數據處理起來確實無從下手。

很長一段時間以來,公司拋棄了數據,因為他們認為海量的數據處理起來確實無從下手。用Hadoop當然也可以處理大量的數據,但是這些數據仍然沒有一個清晰的分類、易追溯的架構。

元數據目錄可以幫助用戶發現和理解哪些數據需要使用自助服務工具進行分析。客戶的這種需求正被Alation和Waterline這樣的公司填補,它們使用機器學習來自動篩選Hadoop需要分析的數據:

如,使用標簽對文件進行編目,標明數據資產之間的關聯,必要時還會提供搜索UI給出的查詢建議。這大大縮短了數據使用者和管理者取得信任、查找以及準確查詢數據的時間。在2017年,作為自助服務的自然延伸,我們將看到更多企業意識到自助分析的重要性,以及對其迫切的需求。

關鍵字:谷歌SQL-on-Hadoop

本文摘自:物聯網智庫

x 重磅!2017大數據十大趨勢 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

重磅!2017大數據十大趨勢

責任編輯:editor004 |來源:企業網D1Net  2017-02-17 10:55:52 本文摘自:物聯網智庫

黑科技,大數據

隨著對不同類型、不同體量數據的結構化存儲、批量處理以及價值挖掘需求的增多,2016年注定是大數據里程碑式的一年。

2017年,支持大量結構化和非結構化數據的系統將繼續增長。市場需要數據平臺來幫助數據管理人員管理和保護大數據,同時允許最終用戶進行數據分析。這些系統將逐步成熟,在企業內部的IT系統中更好地運行。

1、數據處理變得更加快速,數據也變得更加易于使用

選項擴展將加速Hadoop

當然,你可以在Hadoop上執行機器學習和情緒分析,但人們常常會問的第一個問題是:交互式SQL(結構化查詢語言,一種數據庫查詢和程序設計語言,用于存取數據以及查詢、更新和管理關系數據庫系統)究竟有多快?畢竟,SQL相當于企業用戶的“導管”——他們希望使用Hadoop數據來更快的獲得可復用的BI儀表盤(一種向企業展示度量信息和關鍵業務指標即KPI現狀的數據虛擬化工具),或者是進行一些探索性分析。

這種對速度的需求促使用戶采用訪問速度更快和執行效率更高的數據庫,如Exasol、MemSQL,或者是類似于Kudu這種基于Hadoop的商店,當然還需要能夠更快查詢數據的技術。諸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(AtScale,Jethro Data和Kyvos Insights)這樣的數據查詢加速器將進一步模糊傳統數據庫與大數據世界的邊界。

2、大數據不再只是Hadoop

專門基于Hadoop開發的工具已過時

在過去的幾年中,隨著大數據浪潮來襲,數種為了滿足Hadoop分析需求的技術興起。但是,身處復雜,異構環境中的企業不再希望僅為一個數據源(Hadoop)采用孤立的BI訪問點。他們需要的答案被埋沒在一大堆數據源中,從記錄系統到云端,再到來自Hadoop和非Hadoop源的結構化和非結構化數據。(順便說一句,甚至連關系型數據庫也正在為大數據趨勢做準備。例如,SQL Server2016于近日添加了JSON支持)。

在2017年,客戶將會需要對所有數據都進行分析。不依賴于數據源的平臺將會茁壯成長,而專為Hadoop而設計的平臺和未能跨應用部署的平臺將被棄用。Platfora的退出便是這一趨勢的預示。

3、相關組織將利用數據湖(DataLake)來實現價值

數據湖就像一個人造水庫

數據湖就像一個人造水庫。首先你要建造一個水壩(構建一個集群),然后填滿水(數據)。一旦建立了湖泊,你將開始因為各種目的而使用這些水資源(數據),如發電,飲用以及各種消遣(預測分析,機器學習,網絡安全等)。

而今,保有數據湖里的數據已經變成了一種為了保留而保留的行為。在2017年,這將隨著Hadoop業務的收緊而改變。各個組織要求可重復的并且敏捷地使用數據湖,以便更快地獲得響應。在確定對人事、數據和基礎設施的相應投資之前,企業會更加慎重的考慮業務成果。這將促進業務和IT之間的強力耦合。而自助服務平臺作為分析大數據資產的工具將獲得更深入的認可。

另外,公司還將關注業務驅動型應用,避免數據湖陷入困境。在2017年,企業機構將從“構建未來”的數據湖應用轉向業務驅動型數據應用。當今世界需要分析和操作能力去觸及客戶、處理索賠并且連接到個體的不同設備。

舉例而言,任何商業網站需要提供實時的個性化推薦和價格查詢。醫療健康型企業必須處理有效的索賠并且運用分析運營系統來防止索賠欺詐。媒體公司需要通過機頂盒提供個性化的內容。汽車制造商和汽車共享公司則要交互運營其車輛和司機。這些案例的實施交付均需要由一個敏捷平臺來實現,同時提供分析和運營的處理,跨越后臺分析和前臺運營進行整合,提升了商業價值。

4、成熟的架構拒絕通用型框架

Hadoop不再只是一個用于數據科學用例的批處理平臺

Hadoop不再只是一個用于數據科學用例的批處理平臺。它已經成為一種專為特殊分析而架設的多用途分析引擎,甚至被用于日常工作負載的操作報告——傳統上這項任務是由數據倉庫(大量數據提取和分析的工具)來處理的。

在2017年,各個組織將通過特定的用例的架構設計來滿足現存的混合需求。他們將研究一系列的因素,包括用戶角色模型、訪問頻率、數據速度和聚合級別等,然后才能提交合適的數據策略。這些現代化的參考架構由需求驅動,他們將以某種方式將最好的自助服務數據準備工具Hadoop核心和最終用戶分析平臺結合起來,以便可以根據這些需求進行重新配置。這些架構的靈活性將最終推動技術選擇。

5、推動大數據投資的是數據的多樣性,而不是體量和速

Gartner將大數據定義為“三高”

Gartner將大數據定義為“三高”:高容量,高速率,高品類的信息資產。正如New Vantage Partners最近的一項調查結果所示:雖然三個特性都在凸顯,但其中,多元化無疑正成為大數據投資的主導推動力。

隨著企業尋求整合更多來源并關注大數據的“長尾”,這一趨勢將更加明顯。從自由模式的JSON到嵌入式的數據庫(如關系數據庫和非關系數據庫),到非平面數據(如Avro,Parquet,XML),數據格式正在成倍增長,連接器變得至關重要,它將不同格式的數據變成統一的表達/它讓不同格式的數據之間實現互通。在2017年,為零散的、不同的資源提供即時連接的能力,將成為評估一個平臺能力的重要方面。

6、Spark和機器學習打通大數據的任督二脈

Apache Spark曾是Hadoop生態系統的一個組件,現在正成為大數據平臺企業的首選。

在對數據架構師、IT經理和BI分析師的調查中,近70%的受訪者表示,現有的MapReduce里邊最青睞Spark,它是批量導向的并行處理,但不適合交互式應用程序或實時流處理。

這些以大數據為基礎的超級計算能力為計算密集型的平臺提供了極大的助力,如:機器學習(ML)、人工智能(AI)、圖形算法等。尤其對于Microsoft Azure機器學習,由于上述計算能力也完全適用于初學者,并能迅速集成到現有的Microsoft平臺。向大眾開放機器學習將有助于創建更多的模型和應用程序來生成PB級數據。隨著機器學習和系統日益智能化,自助服務軟件提供商們是時候要挖掘一下大數據的力量如何變現到最終用戶身上。

7、物聯網、云服務和大數據集結起來便是自助服務的新機遇

在2017年,似乎一切都將有一個傳感器把信息送回主體

IoT正在生成大量的結構化和非結構化數據,而且越來越多的數據部署在云服務上。數據通常是異構的,并且存在于多個關系和非關系系統中,如Hadoop集群、非關系數據庫等。

雖然存儲和管理服務的創新加快了數據獲取的步伐、進程程,但訪問和理解數據本身仍然是棘手的“最后一米”。因此,對于無縫連接和組合各種云托管數據源的分析工具的需求正在增長。這樣的工具使企業實現了大數據庫的即時調取和可視化管理,,從而幫助物聯網投資者挖掘隱藏的機會。

Hadoop大數據技術案例

讓Hadoop和其他大數據技術如此引人注目的部分原因是,他們讓企業找到問題的答案,而在此之前他們甚至不知道問題是什么。包括谷歌,Facebook、LinkedIn還在內的諸多巨頭,都在幫助Hadoop改善運營效率。具體包括包括:

情感分析:Hadoop與先進的文本分析工具結合,分析社會化媒體和社交網絡發布的非結構化的文本,包括Tweets和Facebook,以確定用戶對特定公司,品牌或產品的情緒。分析既可以專注于宏觀層面的情緒,也可以細分到個人用戶的情緒。

風險建模:財務公司、銀行等公司使用Hadoop和下一代數據倉庫分析大量交易數據,以確定金融資產的風險,模擬市場行為為潛在的“假設”方案做準備,并根據風險為潛在客戶打分。

欺詐檢測:金融公司、零售商等使用大數據技術將客戶行為與歷史交易數據結合來檢測欺詐行為。例如,信用卡公司使用大數據技術識別可能的被盜卡的交易行為。

客戶流失分析:企業使用Hadoop和大數據技術分析客戶行為數據并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關系的供應商或服務商。企業就能采取最有效的措施挽留欲流失客戶。

用戶體驗分析:面向消費者的企業使用Hadoop和其他大數據技術將之前單一客戶互動渠道(如呼叫中心,網上聊天,微博等)數據整合在一起,以獲得對客戶體驗的完整視圖。這使企業能夠了解客戶交互渠道之間的相互影響,從而優化整個客戶生命周期的用戶體驗。

8、在最終用戶驅動下,自助數據預處理走向主流

Hadoop數據如何走進企業用戶,是當下最大的挑戰之一。

Hadoop數據如何走進企業用戶,是當下最大的挑戰之一。自助服務分析平臺的興起改善了這一過程。但企業用戶希望進一步簡化數據分析的流程,尤其在處理多種數據類型和格式時,這一訴求更加明顯。

敏捷的自助服務數據預處理工具不僅可以在源處預處理Hadoop數據,而且還使數據作為快照來用,從而進行簡易便捷的進一步處理。

我們已經看到了的一大批面向終端用戶的大數據預處理創新,Alteryx、Trifacta和Paxata。這些工具降低了后期Hadoop采用者和初學者的進入門檻,并將在2017年體現更大價值。

9、大數據成長:Hadoop增加了企業標準

Hadoop將逐漸成為企業IT環境的核心部分。

Hadoop將逐漸成為企業IT環境的核心部分。在2017年,我們將看到圍繞企業系統的安全、管理成為投資熱地的更多投資。ApacheSentry提供了一個系統,在這個系統中,我們可以強制對元數據進行細致的、按需分配的授權。

作為數據管理的一項重大創舉,Apache Atlas,讓企業可以在繁雜的數據生態系統中實行統一的數據分類。Apache Ranger為Hadoop提供集中式安全管理。

客戶開始期望從企業級RDBMS平臺獲得這些類型的功能。這些功能走在新興大數據技術的前沿,從而消除了企業關于技術迭代而被淘汰方面的擔憂。

Hadoop對數據進行細致管理、按需分配的實例

Last.fm創建于2002年,是提供網絡電臺和音樂服務的社交網絡。每個月有2500萬人使用,產生大量數據。2006年初,Last.fm開始使用Hadoop。Hadoop是Last.fm基礎平臺的關鍵組件,有2個Hadoop集群,運行數百種各種日常作業,包括日志文件分析,A/B測試評測,即時處理和圖表生成。

圖表生成:圖表生成是Hadoop在Last.fm的第一個應用。

數據從哪里來:Last.fm有兩種收聽信息:用戶播放自己的音樂,如pc或者其他設備mp3,這種信息通過Last.fm的客戶端或者第三方應用發送到Last.fm,這一類叫scrobble收藏數據;用戶收聽Last.fm網絡電臺的節目,以及聽節目時候的喜愛,跳過,禁止等操作信息,這一類叫radio listen電臺收聽數據。

數據存儲:收聽數據被發送到Last.fm,經歷驗證和轉換,形成一系列有空格分隔的文本文件,包含用戶id-userid,音樂id-trackid,這首音樂被收藏的次數scrobble,這首音樂在電臺中收聽的次數radio,被跳過的次數skip。真實數據達到GB級別,有更多屬性字段。

數據處理:

Unique Listeners作業:統計收聽某一首歌的不同用戶數,也就說說,有多少個用戶聽過某個歌,如果用戶重復收聽,只算一次。

Sum作業:每首歌的收聽總數,收藏總數,電臺收聽總數,被跳過的總數。

合作作業:每首歌被多少用戶收聽總數,收聽總數,收藏總數,電臺收聽總數,被跳過的總數等。

最后,這些數據會被作為周排行榜等在Last.fm主站上顯示出來。

10、元數據目錄的建立幫助篩選出具有分析價值的數據

很長一段時間以來,公司拋棄了數據,因為他們認為海量的數據處理起來確實無從下手。

很長一段時間以來,公司拋棄了數據,因為他們認為海量的數據處理起來確實無從下手。用Hadoop當然也可以處理大量的數據,但是這些數據仍然沒有一個清晰的分類、易追溯的架構。

元數據目錄可以幫助用戶發現和理解哪些數據需要使用自助服務工具進行分析。客戶的這種需求正被Alation和Waterline這樣的公司填補,它們使用機器學習來自動篩選Hadoop需要分析的數據:

如,使用標簽對文件進行編目,標明數據資產之間的關聯,必要時還會提供搜索UI給出的查詢建議。這大大縮短了數據使用者和管理者取得信任、查找以及準確查詢數據的時間。在2017年,作為自助服務的自然延伸,我們將看到更多企業意識到自助分析的重要性,以及對其迫切的需求。

關鍵字:谷歌SQL-on-Hadoop

本文摘自:物聯網智庫

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 普兰店市| 太仓市| 新田县| 晋宁县| 抚州市| 涟源市| 桂平市| 红河县| 昭苏县| 巴马| 蓬安县| 枣阳市| 邵阳县| 寿阳县| 米泉市| 镇远县| 新巴尔虎右旗| 铜山县| 攀枝花市| 宝山区| 丹棱县| 历史| 镇赉县| 东山县| 自治县| 衡阳县| 西昌市| 潼南县| 洛阳市| 全椒县| 梅河口市| 丰镇市| 江口县| 邮箱| 蓬莱市| 黄冈市| 乐山市| 若羌县| 咸阳市| 仁怀市| 衡山县|