精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

分析工具很難選? 看他們如何挖掘大數據價值

責任編輯:editor004 作者:Craig Stedman |來源:企業網D1Net  2016-12-30 09:58:19 本文摘自:TechTarget中國

預測建模,機器學習和其他先進的分析應用程序,有助于挖掘大數據系統的商業價值,但對于許多用戶來說,這需要使用大量的工具,并付出一定努力才能達到預期。

零售商Macy's五年前部署了Hadoop集群,在此之前,它面臨著一個嚴峻的問題,那就是如何有效處理各種系統生成的銷售和營銷數據。Macy's這些年一直在積極擴展在線業務,數據處理的問題也變得越來越嚴重,因為需要進行處理分析的數據量一直在增加。

該公司的傳統數據倉庫架構有著嚴格的處理限制,無法處理非結構化的信息——如文本。歷史數據基本上也是無法自由訪問的,通常這些數據會被歸檔到磁帶上,運往異地存儲設備。“數據科學家和其他分析師只能在特定時間段的數據上進行數據查詢”,Macy's負責市場分析和客戶關系管理(CRM)系統的主管Seetha Chakrapany說道,“他們受到了嚴重的束縛,無法很好地完成工作。”

Hadoop系統部署后,上述問題得到了一定的緩解,該系統提供了大數據分析架構,也支持基本的商業智能(BI)和報表流程。“Hadoop集群能夠真正成為Macy's企業數據分析平臺”,Chakrapany 說道。現在,分析團隊一直在使用Hadoop平臺,市場營銷、銷售業務,產品管理等部門的數千名用戶得以訪問上百個BI儀表板,這些儀表板的數據都來源于Hadoop平臺上的分析。

但Macy's的大數據環境可不僅僅只有Hadoop集群。例如在前端,Macy's已經部署了多種分析工具來滿足不同的應用需求。在統計分析層面,這家零售商則使用SAS和Microsoft R Server完成,后者基于R開源統計編程語言。

還有其他一些工具負責提供預測分析,數據挖掘和機器學習能力。包括H2O,Salford Predictive Modeler,Apache Mahout開源的機器學習平臺和KXEN——三年前由SAP收購,已經集成到SAP BusinessObjects預測分析軟件中。數據展示上,Macy's使用Tableau提供的數據可視化工具以及AtScale提供的基于Hadoop技術的BI軟件。

更好地分析大數據

這些不同的工具是確保大數據分析架構準確有效的關鍵要素,Chakrapany 在2016年Hadoop峰會上的演講和隨后的采訪中說到,使用統計方法和機器學習來進行高級分析過程自動化是大勢所趨,他強調。

Chakrapany說,“我們一直處于實驗狀態。由于數據量巨大,不可能采用人工的方式來分析這些數據。所以,我們使用大量的統計算法來幫助我們認清業務情況。包括客戶分析、訂單分析、產品和市場的數據分析,此外還有從網站捕獲的客戶點擊行為記錄。”

類似的情況也越來越多地出現在其他企業中。作為大數據平臺,如Hadoop,NoSQL數據庫和Spark 處理引擎被企業廣泛采用。部署先進的分析工具,幫助企業分析業務數據流,這類方式被越來越多的企業所接受。

2016年11月,TechTarget針對企業應用BI和分析軟件進行的一個調查顯示,7000的受訪者中,26.7%的人表示,他們的企業已經部署了預測分析工具。接下來預測分析軟件在企業未來一年的計劃投資榜單中高居榜首。有39.5%的受訪者表示,預測分析軟件與數據可視化、自助服務BI和企業報表等所有更主流的BI技術對于企業來說不可或缺,甚至更為重要。

2015下半年進行的一項TDWI調查還發現,越來越多企業計劃使用預測分析軟件來支持業務。在這種情況下,309 名BI,分析和數據管理方面的專業人士受訪者中,有87%的人表示,他們的企業已經是上述技術的活躍用戶,或預計在三年內實施這些技術。其他高級的分析形式,例如模擬和指令性分析,用戶數量也在逐漸增長。

預測分析的使用增長情況

預測分析的使用增長情況

用算法找到數據隱含的意義

機器學習工具和其他類型的人工智能技術——深度學習,認知計算也越來越多地受到關注,這些關注主要來源于技術用戶和供應商,他們的分析團隊期望使用自動化算法來幫助他們進一步探索數據集的意義。

Progressive Casualty Insurance Co是已經開始接觸這些技術的公司之一。這家保險公司使用 Hadoop集群來加速其Snapshot程序, 該程序主要負責受保人的保險費用折扣,折扣力度則基于駕駛員的安全駕駛情況,其駕駛數據采集于車載診斷設備。

集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60個計算節點用于提升 Snapshot程序的速度,Progressive的大數據分析架構包括一系列的工具,如SAS,R和H2O,該公司的數據科學家使用這些工具,在Hadoop系統中進行數據分析和處理。

數據可視化軟件會備份大量的數據,數據科學家在這些數據上運行預測算法,以幫助參與該計劃的用戶評估其安全駕駛情況。他們還使用分析結果確定不良的駕駛習慣和可能的機械問題,如發電機的信號異常,該問題可以通過分析電壓異常波動數據來判定。

預測分析和機器學習的功能十分強大,Pawan Divakarla——Progressive負責數據分析業務的主管說道,“你有那么多的數據,并且你具有很好的模型用于分析。你 需要一些東西來幫助你,讓工作變得更為有效。”

更深入的大數據分析

Yahoo在2006年成為第一個將Hadoop應用于生產環境的用戶,當時,Hadoop的開發者之一Doug Cutting正在這家網絡搜索和互聯網服務公司工作,Yahoo宣傳自己是當今Hadoop平臺最大的用戶。Yahoo的大數據分析架構,包括40000多個節點,300多個應用,40個集群,Yahoo將Hadoop與Apache HBase數據庫,Apache Storm 實時處理引擎和其他大數據技術結合使用。但這家公司并不滿足于現狀,它一直在努力將這些技術擴展到新的領域。

Yahoo負責大數據和機器學習架構的副總裁Andy Feng說道,“即使在10年后,我們仍然會發現這么做的好處,在過去的三年里,他花了大約95%的時間專注于機器學習工具和應用上。在過去,可以構建并運行現有機器學習技術上的自動算法不足以在Hadoop集群處理如此龐大的數據集,其準確性無法令人滿意。”

“我們一直嘗試機器學習,但我們的嘗試有著一定的約束,所以產生的結果是有限的,Yahoo負責云計算和大數據平臺產品開發的高級總監Sumeet Singh補充說道。不過,他和Feng都表示,近年來,情況已經大為好轉。“我們看到,人工智能和機器學習重回人們的視線,其中一個主要原因就是數據量的增長,”Singh指出。

例如,Yahoo現在正在運行一個機器學習算法,該算法使用語義分析過程,更好地將付費廣告搜索結果頁面與用戶輸入的搜索關鍵字進行匹配,它將每個搜索的營收提升了9%。另一個使用機器學習的應用可以讓Yahoo Flickr在線照片和視頻服務的用戶能夠按照視覺內容來對圖像進行組織,而在以前,他們只能按照拍照日期排序。該算法還可以標記那些不適合在工作中查看的照片,以幫助用戶避免在辦公室看照片時產生的尷尬情況,Feng說。

Hadoop集群節點新增了圖形處理單元,讓這些應用成為了可能。Feng表示,GPU可以進行傳統CPU無法完成的圖像處理。Yahoo在大數據分析架構中新增了Spark處理引擎,接管了一些處理工作。

此外,Yahoo還部署了MLlib,Spark的機器學習算法內置庫。然而,這些算法太過于基礎,Singh說。這促使大數據團隊開發了一個深度學習算法庫CaffeOnSpark, Yahoo已經在GitHub網站上傳了該算法庫,使用者可以自由下載。

關鍵字:Hadoop數據可視化

本文摘自:TechTarget中國

x 分析工具很難選? 看他們如何挖掘大數據價值 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

分析工具很難選? 看他們如何挖掘大數據價值

責任編輯:editor004 作者:Craig Stedman |來源:企業網D1Net  2016-12-30 09:58:19 本文摘自:TechTarget中國

預測建模,機器學習和其他先進的分析應用程序,有助于挖掘大數據系統的商業價值,但對于許多用戶來說,這需要使用大量的工具,并付出一定努力才能達到預期。

零售商Macy's五年前部署了Hadoop集群,在此之前,它面臨著一個嚴峻的問題,那就是如何有效處理各種系統生成的銷售和營銷數據。Macy's這些年一直在積極擴展在線業務,數據處理的問題也變得越來越嚴重,因為需要進行處理分析的數據量一直在增加。

該公司的傳統數據倉庫架構有著嚴格的處理限制,無法處理非結構化的信息——如文本。歷史數據基本上也是無法自由訪問的,通常這些數據會被歸檔到磁帶上,運往異地存儲設備。“數據科學家和其他分析師只能在特定時間段的數據上進行數據查詢”,Macy's負責市場分析和客戶關系管理(CRM)系統的主管Seetha Chakrapany說道,“他們受到了嚴重的束縛,無法很好地完成工作。”

Hadoop系統部署后,上述問題得到了一定的緩解,該系統提供了大數據分析架構,也支持基本的商業智能(BI)和報表流程。“Hadoop集群能夠真正成為Macy's企業數據分析平臺”,Chakrapany 說道?,F在,分析團隊一直在使用Hadoop平臺,市場營銷、銷售業務,產品管理等部門的數千名用戶得以訪問上百個BI儀表板,這些儀表板的數據都來源于Hadoop平臺上的分析。

但Macy's的大數據環境可不僅僅只有Hadoop集群。例如在前端,Macy's已經部署了多種分析工具來滿足不同的應用需求。在統計分析層面,這家零售商則使用SAS和Microsoft R Server完成,后者基于R開源統計編程語言。

還有其他一些工具負責提供預測分析,數據挖掘和機器學習能力。包括H2O,Salford Predictive Modeler,Apache Mahout開源的機器學習平臺和KXEN——三年前由SAP收購,已經集成到SAP BusinessObjects預測分析軟件中。數據展示上,Macy's使用Tableau提供的數據可視化工具以及AtScale提供的基于Hadoop技術的BI軟件。

更好地分析大數據

這些不同的工具是確保大數據分析架構準確有效的關鍵要素,Chakrapany 在2016年Hadoop峰會上的演講和隨后的采訪中說到,使用統計方法和機器學習來進行高級分析過程自動化是大勢所趨,他強調。

Chakrapany說,“我們一直處于實驗狀態。由于數據量巨大,不可能采用人工的方式來分析這些數據。所以,我們使用大量的統計算法來幫助我們認清業務情況。包括客戶分析、訂單分析、產品和市場的數據分析,此外還有從網站捕獲的客戶點擊行為記錄。”

類似的情況也越來越多地出現在其他企業中。作為大數據平臺,如Hadoop,NoSQL數據庫和Spark 處理引擎被企業廣泛采用。部署先進的分析工具,幫助企業分析業務數據流,這類方式被越來越多的企業所接受。

2016年11月,TechTarget針對企業應用BI和分析軟件進行的一個調查顯示,7000的受訪者中,26.7%的人表示,他們的企業已經部署了預測分析工具。接下來預測分析軟件在企業未來一年的計劃投資榜單中高居榜首。有39.5%的受訪者表示,預測分析軟件與數據可視化、自助服務BI和企業報表等所有更主流的BI技術對于企業來說不可或缺,甚至更為重要。

2015下半年進行的一項TDWI調查還發現,越來越多企業計劃使用預測分析軟件來支持業務。在這種情況下,309 名BI,分析和數據管理方面的專業人士受訪者中,有87%的人表示,他們的企業已經是上述技術的活躍用戶,或預計在三年內實施這些技術。其他高級的分析形式,例如模擬和指令性分析,用戶數量也在逐漸增長。

預測分析的使用增長情況

預測分析的使用增長情況

用算法找到數據隱含的意義

機器學習工具和其他類型的人工智能技術——深度學習,認知計算也越來越多地受到關注,這些關注主要來源于技術用戶和供應商,他們的分析團隊期望使用自動化算法來幫助他們進一步探索數據集的意義。

Progressive Casualty Insurance Co是已經開始接觸這些技術的公司之一。這家保險公司使用 Hadoop集群來加速其Snapshot程序, 該程序主要負責受保人的保險費用折扣,折扣力度則基于駕駛員的安全駕駛情況,其駕駛數據采集于車載診斷設備。

集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60個計算節點用于提升 Snapshot程序的速度,Progressive的大數據分析架構包括一系列的工具,如SAS,R和H2O,該公司的數據科學家使用這些工具,在Hadoop系統中進行數據分析和處理。

數據可視化軟件會備份大量的數據,數據科學家在這些數據上運行預測算法,以幫助參與該計劃的用戶評估其安全駕駛情況。他們還使用分析結果確定不良的駕駛習慣和可能的機械問題,如發電機的信號異常,該問題可以通過分析電壓異常波動數據來判定。

預測分析和機器學習的功能十分強大,Pawan Divakarla——Progressive負責數據分析業務的主管說道,“你有那么多的數據,并且你具有很好的模型用于分析。你 需要一些東西來幫助你,讓工作變得更為有效。”

更深入的大數據分析

Yahoo在2006年成為第一個將Hadoop應用于生產環境的用戶,當時,Hadoop的開發者之一Doug Cutting正在這家網絡搜索和互聯網服務公司工作,Yahoo宣傳自己是當今Hadoop平臺最大的用戶。Yahoo的大數據分析架構,包括40000多個節點,300多個應用,40個集群,Yahoo將Hadoop與Apache HBase數據庫,Apache Storm 實時處理引擎和其他大數據技術結合使用。但這家公司并不滿足于現狀,它一直在努力將這些技術擴展到新的領域。

Yahoo負責大數據和機器學習架構的副總裁Andy Feng說道,“即使在10年后,我們仍然會發現這么做的好處,在過去的三年里,他花了大約95%的時間專注于機器學習工具和應用上。在過去,可以構建并運行現有機器學習技術上的自動算法不足以在Hadoop集群處理如此龐大的數據集,其準確性無法令人滿意。”

“我們一直嘗試機器學習,但我們的嘗試有著一定的約束,所以產生的結果是有限的,Yahoo負責云計算和大數據平臺產品開發的高級總監Sumeet Singh補充說道。不過,他和Feng都表示,近年來,情況已經大為好轉。“我們看到,人工智能和機器學習重回人們的視線,其中一個主要原因就是數據量的增長,”Singh指出。

例如,Yahoo現在正在運行一個機器學習算法,該算法使用語義分析過程,更好地將付費廣告搜索結果頁面與用戶輸入的搜索關鍵字進行匹配,它將每個搜索的營收提升了9%。另一個使用機器學習的應用可以讓Yahoo Flickr在線照片和視頻服務的用戶能夠按照視覺內容來對圖像進行組織,而在以前,他們只能按照拍照日期排序。該算法還可以標記那些不適合在工作中查看的照片,以幫助用戶避免在辦公室看照片時產生的尷尬情況,Feng說。

Hadoop集群節點新增了圖形處理單元,讓這些應用成為了可能。Feng表示,GPU可以進行傳統CPU無法完成的圖像處理。Yahoo在大數據分析架構中新增了Spark處理引擎,接管了一些處理工作。

此外,Yahoo還部署了MLlib,Spark的機器學習算法內置庫。然而,這些算法太過于基礎,Singh說。這促使大數據團隊開發了一個深度學習算法庫CaffeOnSpark, Yahoo已經在GitHub網站上傳了該算法庫,使用者可以自由下載。

關鍵字:Hadoop數據可視化

本文摘自:TechTarget中國

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 银川市| 资溪县| 绥中县| 大荔县| 政和县| 宝兴县| 江油市| 平果县| 佳木斯市| 福清市| 车致| 宁阳县| 兴海县| 余江县| 惠州市| 大英县| 凤庆县| 德钦县| 吉隆县| 荣昌县| 始兴县| 永春县| 新宁县| 鹤峰县| 集贤县| 清徐县| 班戈县| 青州市| 乾安县| 个旧市| 许昌市| 兴和县| 广汉市| 库尔勒市| 陆丰市| 阿合奇县| 辽宁省| 吉水县| 德化县| 武义县| 长岭县|