精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據的8個最佳實踐

責任編輯:cres 作者:Andy Patrizio |來源:企業網D1Net  2018-05-02 13:29:45 原創文章 企業網D1Net

大數據如果應用不當可能很容易失控,并可能消耗企業資源和預算。在這里將介紹避免混亂的一些大數據的最佳實踐。
 
大數據可以為用戶提供卓越的洞察力,也有可能讓企業不堪重負。而企業根據其收集數據做出自己的選擇。企業面臨的主要問題是大數據是由技術專業人員收集的技術解決方案,但最佳實踐是其業務流程。
 
由于資源和輸入設備得到爆炸式增長,人們收集到的數據比以往更多。根據IBM公司的調查,大多數美國公司存儲的數據量為100TB,而美國的政府部門和企業每年因數據損壞而造成損失高達3.1萬億美元。
 
然而,企業創建數據湖或數據倉庫并將它們存滿數據,其中大部分數據未被使用或曾被使用過。企業的數據湖將快速積累成為存滿數據的信息池。
 
最基本的問題是許多數據只得到了部分處理或完全偏離了基礎。數據收集不正確或收集手段沒有正確定義。企業的業務很明顯與大數據有關。
 
這對于商業數據庫中使用的常規的、日常的、小級別的數據來說是個小問題。對于企業來說,需要大數據處理大量的信息。因為其數據的規模巨大,獲得收益或混淆的可能性也越大。因此,“正確”變得更為重要。
 
那么在大數據中“正確”意味著什么呢?
 
大數據最佳實踐:8個關鍵原則
 
事實是,“大數據的最佳實踐”的概念正在演變,因為數據分析領域本身正在迅速發展。不過,企業需要與可能的最佳策略進行競爭。因此提出一些最佳實踐,希望企業能夠避免被大量無用數據淹沒,不會淹沒在數據湖中。
 
(1)定義大數據業務目標
 
IT行業有一個壞習慣,就是像Hadoop集群這樣的新鮮事物容易分散人們的注意力。在企業開始利用大數據分析過程之前,了解業務需求和目標應該是企業采取的第一步,也是最重要的一步。企業用戶必須明確他們想要的結果。
 
這是企業管理層必須率先實現,并且在技術方面必須遵循的地方。如果企業的管理層沒有明確的業務目標,那么將不能收集并正確創建數據。很多組織收集了一切能夠收集的數據,然后再去清除他們不需要的東西。這會造成很多不必要的工作,因此企業應該清理出所需要的信息,而不是收集全部信息。
 
(2)評估并與合作伙伴制定戰略
 
大數據項目不應該由IT部門孤立完成。它必須涉及數據所有者,這將是一個業務部門,或者是一個提供大數據技術的供應商或咨詢機構,這些供應商可以為組織帶來外部的視角和眼光,并評估組織當前的情況。
 
在制定戰略的過程中,應該持續進行檢查,以確保企業收集所需的數據,并且會為企業提供所需的見解,就像廚師在整個烹飪過程中時刻檢查自己的工作一樣。而不只是收集所有內容之后再進行檢查,因為如果在此期間數據出錯,這意味著檢查數據要一直回溯到起點,并在不必要的時候啟動。
 
企業通過與那些從項目中獲益的人一起工作,可以確保一起參與進來,從而取得成功。
 
(3)企業確定自己擁有什么以及在大數據中需要什么
 
大量的數據并不等同于良好可用的數據。企業可能會在某個地方將正確的數據混合在一起,但它會由企業自己決定。收集的隨機數據越多,越是經常雜亂無章,形式各異。
 
同樣重要的是確定企業所擁有的是其所沒有的東西。一旦收集了項目所需的數據,就確定可能缺少什么,在這些工作開始之前一定要把一切都準備好。
 
企業并不總是能夠事先知道需要什么數據字段,所以一定要確保軟件的靈活性,以便在實施過程中調整。這與確定企業擁有什么以及在大數據中需要什么的理念相吻合。
 
其底線是企業必須測試數據并檢查結果。企業可能會驚訝地發現沒有得到需要的答案。在企業首先開展該項目之前,最好先找出答案。
 
(4)保持持續的溝通和評估
 
有效的協作需要利益相關者和IT部門之間的持續溝通。企業的目標可能會在項目的進行期間發生變化,如果發生這種情況,必須將變更信息傳達給IT部門。企業可能需要停止收集一種形式的數據,并開始收集另一種形式的數據。企業不希望這種情況持續下去。
 
繪制一張清晰的地圖,在某些地點打破預期或期望的結果。如果是一個為期12個月的項目,每三個月檢查一次。這給了企業一個復習和改變課程的機會。
 
(5)如果啟動緩慢,需要利用大數據快速反應
 
企業開展的第一個大數據項目不應該過于雄心勃勃。需要要從概念驗證或試點項目開始,這樣的項目規模相對較小,并且易于管理。
 
選擇企業想改善業務流程的一個領域,但是在事情出錯或錯誤嚴重的情況下它不會有太大的影響。另外,如果問題不需要解決,不要強迫采用大數據解決方案。
 
企業還應該使用敏捷技術和迭代方法來實現。敏捷是一種操作手段,并不局限于開發。敏捷開發是什么?例如寫一小段代碼,然后開始測試多種方法,然后再添加,再進行徹底測試、沖洗、重復。這是一種可以應用于任何過程的方法,而不僅僅是編程。
 
使用敏捷和迭代實現技術,可以根據當前需求在短時間內提供快速解決方案,而不是一次性瀑布方法。
 
(6)評估大數據技術要求
 
根據調研機構IDC公司的數據,絕大多數數據是非結構化的,可能高達90%。但是企業仍然需要查看數據來自哪里以確定最佳數據存儲。企業可以選擇SQL或NoSQL以及兩種數據庫的各種變體。
 
企業需要實時洞察力還是在做事后評估?可能需要Apache Spark進行實時處理,或者可以使用Hadoop(這是一個批處理過程)。還有用于分散在多個地點的數據的地理數據庫,這可能是具有多個地點和數據中心的公司的要求。
 
另外,企業需要查看每個數據庫的具體分析功能,看看它們是否適用。IBM公司收購了高性能分析設備商Netezza公司,而Teradata和Greenplum嵌入了SAS加速器,Oracle在其Exadata系統的分析中使用了R語言的特殊實現,PostgreSQL具有特殊的分析編程語法。因此,需要查看這些工具如何能夠滿足其需求。
 
(7)與云中的大數據保持一致
 
企業在采用云計算時必須謹慎,因為可能采用按量計費,而大數據意味著要處理大量數據。但是,云計算也有很多優點。公共云可以即時或至少非常快速地進行配置和擴展。Amazon EMR和Google BigQuery等服務允許快速建立原型。
 
首先是使用它來快速構建企業的環境原型。使用數據子集和亞馬遜和微軟等云計算提供商提供的許多工具,企業可以在幾個小時內建立、開發和測試環境,并將其用于測試平臺。然后,當企業制定出一個堅實的運營模式時,將其移回內部部署的數據中心進行工作。
 
云計算的另一個優點是企業收集的大部分數據都可能駐留在那里。在這種情況下,企業沒有理由將數據轉移到內部部署數據中心。許多數據庫和大數據應用程序都支持來自云計算和本地的各種數據源,因此,如果企業在云中收集數據,請務必將其留在那里。
 
(8)管理企業的大數據人才,并一直關注合規性和訪問的問題
 
大數據是一個新興的領域,而不是像Python或Java編程這些可以自學成才的領域。麥肯錫全球研究院的一項研究表明,2018年全球將缺乏140至190萬名擁有必要專業知識的人員,另外還缺乏基于分析結果作出決策的150萬名相關管理人員和分析師。
 
首先必須明確的是誰應該有權訪問數據,以及有多少訪問權限。數據隱私是當今的一個主要問題,尤其是歐洲即將實施嚴格的通用數據保護條例(GDPR),這將對企業的數據使用造成嚴格的限制。
 
企業確保清除所有數據隱私問題以及誰有權訪問敏感數據。企業應該關注其他治理問題,如營業額?確定哪些數據(如果有的話)可以進入公共云,哪些數據必須保留在本地部署數據中心,以及誰控制什么。
 
最后,雖然一些高校正在為數據科學設置和增加相關課程,但這些課程并沒有標準,每個課程計劃在重點和技能方面都略有不同。所以,有時企業并不需要招聘具有數據科學碩士學位的技術人員,因為他們可能不了解企業使用的工具或其所在的行業。再次,鑒于技能短缺的情況,企業可能需要做到這一點,可以在垂直行業中培訓他們。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:大數據

原創文章 企業網D1Net

x 大數據的8個最佳實踐 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據的8個最佳實踐

責任編輯:cres 作者:Andy Patrizio |來源:企業網D1Net  2018-05-02 13:29:45 原創文章 企業網D1Net

大數據如果應用不當可能很容易失控,并可能消耗企業資源和預算。在這里將介紹避免混亂的一些大數據的最佳實踐。
 
大數據可以為用戶提供卓越的洞察力,也有可能讓企業不堪重負。而企業根據其收集數據做出自己的選擇。企業面臨的主要問題是大數據是由技術專業人員收集的技術解決方案,但最佳實踐是其業務流程。
 
由于資源和輸入設備得到爆炸式增長,人們收集到的數據比以往更多。根據IBM公司的調查,大多數美國公司存儲的數據量為100TB,而美國的政府部門和企業每年因數據損壞而造成損失高達3.1萬億美元。
 
然而,企業創建數據湖或數據倉庫并將它們存滿數據,其中大部分數據未被使用或曾被使用過。企業的數據湖將快速積累成為存滿數據的信息池。
 
最基本的問題是許多數據只得到了部分處理或完全偏離了基礎。數據收集不正確或收集手段沒有正確定義。企業的業務很明顯與大數據有關。
 
這對于商業數據庫中使用的常規的、日常的、小級別的數據來說是個小問題。對于企業來說,需要大數據處理大量的信息。因為其數據的規模巨大,獲得收益或混淆的可能性也越大。因此,“正確”變得更為重要。
 
那么在大數據中“正確”意味著什么呢?
 
大數據最佳實踐:8個關鍵原則
 
事實是,“大數據的最佳實踐”的概念正在演變,因為數據分析領域本身正在迅速發展。不過,企業需要與可能的最佳策略進行競爭。因此提出一些最佳實踐,希望企業能夠避免被大量無用數據淹沒,不會淹沒在數據湖中。
 
(1)定義大數據業務目標
 
IT行業有一個壞習慣,就是像Hadoop集群這樣的新鮮事物容易分散人們的注意力。在企業開始利用大數據分析過程之前,了解業務需求和目標應該是企業采取的第一步,也是最重要的一步。企業用戶必須明確他們想要的結果。
 
這是企業管理層必須率先實現,并且在技術方面必須遵循的地方。如果企業的管理層沒有明確的業務目標,那么將不能收集并正確創建數據。很多組織收集了一切能夠收集的數據,然后再去清除他們不需要的東西。這會造成很多不必要的工作,因此企業應該清理出所需要的信息,而不是收集全部信息。
 
(2)評估并與合作伙伴制定戰略
 
大數據項目不應該由IT部門孤立完成。它必須涉及數據所有者,這將是一個業務部門,或者是一個提供大數據技術的供應商或咨詢機構,這些供應商可以為組織帶來外部的視角和眼光,并評估組織當前的情況。
 
在制定戰略的過程中,應該持續進行檢查,以確保企業收集所需的數據,并且會為企業提供所需的見解,就像廚師在整個烹飪過程中時刻檢查自己的工作一樣。而不只是收集所有內容之后再進行檢查,因為如果在此期間數據出錯,這意味著檢查數據要一直回溯到起點,并在不必要的時候啟動。
 
企業通過與那些從項目中獲益的人一起工作,可以確保一起參與進來,從而取得成功。
 
(3)企業確定自己擁有什么以及在大數據中需要什么
 
大量的數據并不等同于良好可用的數據。企業可能會在某個地方將正確的數據混合在一起,但它會由企業自己決定。收集的隨機數據越多,越是經常雜亂無章,形式各異。
 
同樣重要的是確定企業所擁有的是其所沒有的東西。一旦收集了項目所需的數據,就確定可能缺少什么,在這些工作開始之前一定要把一切都準備好。
 
企業并不總是能夠事先知道需要什么數據字段,所以一定要確保軟件的靈活性,以便在實施過程中調整。這與確定企業擁有什么以及在大數據中需要什么的理念相吻合。
 
其底線是企業必須測試數據并檢查結果。企業可能會驚訝地發現沒有得到需要的答案。在企業首先開展該項目之前,最好先找出答案。
 
(4)保持持續的溝通和評估
 
有效的協作需要利益相關者和IT部門之間的持續溝通。企業的目標可能會在項目的進行期間發生變化,如果發生這種情況,必須將變更信息傳達給IT部門。企業可能需要停止收集一種形式的數據,并開始收集另一種形式的數據。企業不希望這種情況持續下去。
 
繪制一張清晰的地圖,在某些地點打破預期或期望的結果。如果是一個為期12個月的項目,每三個月檢查一次。這給了企業一個復習和改變課程的機會。
 
(5)如果啟動緩慢,需要利用大數據快速反應
 
企業開展的第一個大數據項目不應該過于雄心勃勃。需要要從概念驗證或試點項目開始,這樣的項目規模相對較小,并且易于管理。
 
選擇企業想改善業務流程的一個領域,但是在事情出錯或錯誤嚴重的情況下它不會有太大的影響。另外,如果問題不需要解決,不要強迫采用大數據解決方案。
 
企業還應該使用敏捷技術和迭代方法來實現。敏捷是一種操作手段,并不局限于開發。敏捷開發是什么?例如寫一小段代碼,然后開始測試多種方法,然后再添加,再進行徹底測試、沖洗、重復。這是一種可以應用于任何過程的方法,而不僅僅是編程。
 
使用敏捷和迭代實現技術,可以根據當前需求在短時間內提供快速解決方案,而不是一次性瀑布方法。
 
(6)評估大數據技術要求
 
根據調研機構IDC公司的數據,絕大多數數據是非結構化的,可能高達90%。但是企業仍然需要查看數據來自哪里以確定最佳數據存儲。企業可以選擇SQL或NoSQL以及兩種數據庫的各種變體。
 
企業需要實時洞察力還是在做事后評估?可能需要Apache Spark進行實時處理,或者可以使用Hadoop(這是一個批處理過程)。還有用于分散在多個地點的數據的地理數據庫,這可能是具有多個地點和數據中心的公司的要求。
 
另外,企業需要查看每個數據庫的具體分析功能,看看它們是否適用。IBM公司收購了高性能分析設備商Netezza公司,而Teradata和Greenplum嵌入了SAS加速器,Oracle在其Exadata系統的分析中使用了R語言的特殊實現,PostgreSQL具有特殊的分析編程語法。因此,需要查看這些工具如何能夠滿足其需求。
 
(7)與云中的大數據保持一致
 
企業在采用云計算時必須謹慎,因為可能采用按量計費,而大數據意味著要處理大量數據。但是,云計算也有很多優點。公共云可以即時或至少非常快速地進行配置和擴展。Amazon EMR和Google BigQuery等服務允許快速建立原型。
 
首先是使用它來快速構建企業的環境原型。使用數據子集和亞馬遜和微軟等云計算提供商提供的許多工具,企業可以在幾個小時內建立、開發和測試環境,并將其用于測試平臺。然后,當企業制定出一個堅實的運營模式時,將其移回內部部署的數據中心進行工作。
 
云計算的另一個優點是企業收集的大部分數據都可能駐留在那里。在這種情況下,企業沒有理由將數據轉移到內部部署數據中心。許多數據庫和大數據應用程序都支持來自云計算和本地的各種數據源,因此,如果企業在云中收集數據,請務必將其留在那里。
 
(8)管理企業的大數據人才,并一直關注合規性和訪問的問題
 
大數據是一個新興的領域,而不是像Python或Java編程這些可以自學成才的領域。麥肯錫全球研究院的一項研究表明,2018年全球將缺乏140至190萬名擁有必要專業知識的人員,另外還缺乏基于分析結果作出決策的150萬名相關管理人員和分析師。
 
首先必須明確的是誰應該有權訪問數據,以及有多少訪問權限。數據隱私是當今的一個主要問題,尤其是歐洲即將實施嚴格的通用數據保護條例(GDPR),這將對企業的數據使用造成嚴格的限制。
 
企業確保清除所有數據隱私問題以及誰有權訪問敏感數據。企業應該關注其他治理問題,如營業額?確定哪些數據(如果有的話)可以進入公共云,哪些數據必須保留在本地部署數據中心,以及誰控制什么。
 
最后,雖然一些高校正在為數據科學設置和增加相關課程,但這些課程并沒有標準,每個課程計劃在重點和技能方面都略有不同。所以,有時企業并不需要招聘具有數據科學碩士學位的技術人員,因為他們可能不了解企業使用的工具或其所在的行業。再次,鑒于技能短缺的情況,企業可能需要做到這一點,可以在垂直行業中培訓他們。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:大數據

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 蕉岭县| 利津县| 鹿邑县| 文安县| 麻栗坡县| 星子县| 关岭| 彭州市| 壶关县| 鄂温| 莲花县| 那曲县| 武邑县| 静宁县| 临西县| 化德县| 赣州市| 曲麻莱县| 三明市| 祁阳县| 荔浦县| 建水县| 岑溪市| 康定县| 韩城市| 梓潼县| 仙桃市| 邻水| 抚松县| 景宁| 大冶市| 鞍山市| 临武县| 大兴区| 阳西县| 谢通门县| 西吉县| 昭通市| 宜君县| 定安县| 神农架林区|