當前位置：大數據 → 業界動態 → 正文

如何首次構建云數據倉庫

責任編輯：cres 作者：Aaron Hurst |來源：企業網D1Net 2020-02-17 11:33:31 原創文章企業網D1Net

對很多組織來說，如何首次成功地構建云數據倉庫是一個難題，因此需要了解一些知識和技巧。

那么組織應該如何進入這個未知領域?第一次構建和使用云數據倉庫聽起來可能讓人望而生畏，但對于希望將其數據更好地分類的組織來說，云數據倉庫是一個可行的選擇，而且云平臺通常允許靈活性和可擴展性。

數據虛擬化提供商Denodo公司最近進行的一項研究發現，56%的組織在云平臺中部署了數據倉庫技術，并經常發現可以獲得很多好處，其中包括有效的工作負載管理和供應商鎖定功能。

但是，初次嘗試使用這種技術的組織可能想知道從哪里開始，并且如果失誤將在時間和費用方面的代價很高。那么，組織應該怎么做才能最大程度地降低風險，并確保獲得回報?

1.提高勞動力技能

需要努力解決的一個問題是確保組織的員工技能已為過渡做好準備。

云數據倉庫技術的一個主要方面是它提供了大量的數據，并且在監控客戶行為方面非常有益，但是如果組織的員工沒有足夠的技能來知道如何正確地利用它，就無法發揮它的潛力。

SolarWinds公司首席技術官Thomas LaRock說，“在全球范圍內建立數據倉庫，具有低延遲和巨大的計算能力，已經不再是標準業務無法企及的。在以往花費數百萬美元才能實現的工作，如今只需幾百美元和一些PowerShell腳本就可以完成。

組織可以輕松利用Microsoft Azure和AWS之類的云計算提供商來為其數據分析需求分配硬件資源。但是，處理大數據需要認真的技能提升，這是毫無疑問的。但是這些新技能將拓寬組織IT專業人員的視野。對數據處理需要有著充分的了解，再加上傳統的網絡工程，最終將促進IT專業人員的職業發展，因此應被視為一項必要的投資。”

2.建立充分的數據治理

LaRock繼續強調說，必須確保以不會產生無用的重復數據或孤立數據的方式管理組織數據的重要性。

他說：“在實現數據倉庫時，最常見的陷阱是管理、收集和聚合同一數據的多個副本。企業通常有很多數據倉庫，如果它們構成數據倉庫的一部分，就會產生冗余。如果要開始構建云數據倉庫，則必須考慮建立適當的數據治理策略。有了這樣的策略，就可以在實施數據倉庫之前確定孤島。”

3.從小處開始

組織在首次嘗試建立云數據倉庫時，最好是通過降低期望來最大程度地減少發生錯誤時的風險。

SnapLogic公司的首席技術官Craig Stewart說：“這將是一個從小事做起的過程，在一個小項目中獲得一些經驗和價值，然后從中學習。從第一個項目中獲得經驗，然后就可以逐步獲得更多價值。

關于云計算的偉大之處在于，組織可以增加從RedShift和Azure Synapse之類獲得的彈性，這確實使組織能夠做到這一點。而從小事開始就意味著，如果組織嘗試的項目遭遇失敗，可以從中學到經驗和教訓，然后繼續進行下一步，而不必付出巨大的成本，無論是資金來源，還是人力成本。

使用自助服務方式的非代碼類型工具。這種結合意味著組織可以尋求快速獲得價值，學習所做的并沒有給組織帶來價值，然后也可以快速發展，而不會遇到代價非常昂貴的失敗，而失敗本身就是一個獲得價值的學習過程。”

4.規劃新的架構是關鍵

除了從小處做起，組織還必須通過仔細規劃其云數據倉庫架構來保持耐心，這一點至關重要。

WhereScape公司副總裁兼歐洲、中東和非洲地區總經理Rob Mellor說：“組織需要注意在研究過程中會聽到的一些誤導。組織不僅可以將所有數據都放入云平臺中，而且無需進行任何設計或架構即可開始對其進行分析。分析環境是經過計劃和架構的，因此所有用戶都可以理解和使用它。

組織也無需將所有數據倉庫遷移到云端，而無需重新設計。組織原有的數據倉庫在清理過程中會遇到很多麻煩。

但這是組織清除低效流程，浪費未使用資產(例如原有報表、可視化和分析已不再使用)空間的好時機。這也是使許多流程自動化以提高其效率的絕好機會。”

6.利用現有模型

第一次將數據倉庫遷移到云中的決定可能不需要完全的新工作，并且可能需要從需要改進的現有體系結構中吸取教訓。

除了其他好處外，這還可以幫助組織滿足上述對足夠數據治理的需求。

Exasol公司市場情報經理Helena Schwenk表示：“應將遷移視為合理化和修改現有本地數據倉庫的機會。組織需要確定可以修改、擴充或添加哪些數據資產和源，并采用漸進式遷移策略，以實現具有凝聚力的云數據倉庫平臺，包括適當的治理和監督。”

7.確?？赡艿难葑?/div>

Schwenk表示，組織需要了解如何使用內部經常使用的數據以外的其他種類數據的重要性。云計算的大數據(尤其是公共云)可以從外部影響的整合中受益。

她說：“組織需要研究公共云如何支持新的數據工作負載或業務用例。例如，考慮通過利用云數據倉庫的規模和彈性來支持更多的數據可供分析使用，從而在云數據倉庫中支持高級分析和數據科學。那些更新的云原生數據源(例如社交媒體數據和來自傳感器的數據)，在提供對業務的更深入，更深刻的理解方面可能會極大地受益。”

8.考慮采用無服務器技術

Unravel Data公司國際區域副總裁Justyn Goodenough建議考慮使用無服務器技術。

他說：“無服務器關系數據庫是商業智能應用程序和發布數據以供其他系統使用的常見選擇。它們提供了規模，性能以及最重要的是對準備好的數據的基于SQL的訪問。

供應商的示例包括AWS Redshift、Google BigQuery和Azure SQL數據倉庫。這些對大小適中和相對簡單的數據結構非常有用。

對于更高的性能和復雜的關系數據模型，大規模并行處理(MPP)數據庫在內存中存儲大量數據，并且可以快速發展，但往往代價高昂。”

9.研究和尋求專業知識

最后，首次開始使用云數據倉庫技術時應考慮的兩個技巧可能適用于任何新的業務活動，甚至是生活中的風險。

Zen Internet公司云計算與托管總經理GM Lyons說，“重要的是要準確地了解組織需要尋找的內容，因為不同的平臺在數據類型、分析和處理方面具有不同的優勢。例如，有些組織可能會發現多云服務更合適，不要以為從特定提供商那里獲得了一項云計算服務，因為它們也將是滿足組織其他云計算需求的最佳提供商。

最后，除了開展自己的研究之外，組織還應與具有該領域框架和經驗的專家合作。這將有助于最大程度地降低采用云數據倉庫的任何風險或挑戰，并確保組織獲得競爭優勢，以充分利用其帶來的收益。”

關鍵字：大數據數據倉庫