數據倉庫實施過程中需要注意的問題
在實施數據倉庫的過程中,還面臨著很多影響數據倉庫項目成敗的關鍵因素,而這些因素實際上并不完全是技術層面的。這也是為什么數據倉庫項目失敗比例很高的主要原因。只有在項目中很好的解決這些問題,才能保證數據倉庫項目的最終成功。下面分別介紹這些需要關注的問題:
1.采用何種實施方法
企業級數據倉庫的實現通常有兩種途徑:一種是從建造某個部門特定的數據集市開始,逐步擴充數據倉庫所包含的主題和范圍,最后形成一個能夠完全反應企業全貌的企業級數據倉庫;另外一種則是從一開始就從企業的整體來考慮數據倉庫的主題和實施。前一種方法是各個擊破,投資少、周期短且易于見到成果,但由于該設計開始時是以特定的部門級主題為框架的,向其他的主題和部門擴充往往非常困難。而后一種方法恰恰相反:投資大、周期長,但是易于擴展。
以哪種方法進行實施,主要取決于各個行業和客戶的實際情況。如電信和銀行業,采用第二種方法比較可行,這是因為這兩個行業業務發展變化快,為了能夠適應將來的變化,整個數據倉庫架構必須是可擴展的和易于維護的。如果只是基于部門級的需求去設計,將來肯定無法適應變化。如果重新設計,勢必造成前期投入的浪費。對其他一些行業,如制造業和零售業,本著“急用先行”的原則,可以先從某一局部入手,慢慢擴展為數據倉庫。
從技術上講,以部門需求作為主要考慮因素建立的系統,它的數據量不會太大,會影響對將來數據膨脹風險的正確估計,當數據集市擴展到企業范圍的時候,由于原有技術無法支撐新的數據規模,會造成數據裝載和數據分析速度的降低,甚至達到不可用的地步。另外,企業級的數據倉庫會涉及更多的額業務系統,只有充分研究各業務系統,才能了解如何對不同格式、不同標準、不同接口的數據進行集成。如果沒有這方面的準備,當擴展到企業層面時,會面臨很多技術問題,難以解決,而不得不對原有系統進行修改或重建。
當然,對于第二種方法,也不是說把攤子鋪的越大越好。合理的做法是“統籌規劃,分步實施”。根據業務需求,把業務的主要方面都涵蓋進去,確定彼此之間的聯系;對于次要的需求,可以預留一些接口,以備將來細化。否則,如果整個調研周期拖得太長,等進入實施階段,業務又發生變化,不得不重新修改設計,同樣會造成浪費。所以,先搭建好一個易于擴展且穩定的架構,在此基礎上逐步實施,是一個兼顧長遠發展與合理投入的最佳方式。
此外,分步實施還可以減少風險:前一階段的經驗教訓可以為下一階段提供有益的借鑒,從而使得數據倉庫的建設不斷完善,不斷發展。
2.從業務需求出發,結合先進的實現技術
和其他的應用系統相比,數據倉庫對于需求分析和系統設計等前期工作要求更高,其重要性也更加突出。可以說,分析和設計階段決定了數據倉庫最終的失敗。因為需求不明確、設計不合理造成的根本性缺陷是以后實施階段所無法彌補的。因此在分析和設計階段,對相關的業務部門和技術部門要進行詳細的調研,在用戶和開發人員之間的迭代和反饋是必須和重要的,它決定了數據倉庫最終的成功與否。
由于數據倉庫是面向業務分析的,所以最主要的需求應該從業務部門獲取和收集,因為數據倉庫最終是要服務于業務部門的。需求抓的不準,導致將來將無法解決業務部門的問題,這個數據倉庫項目就是失敗的,技術再先進也沒有用。這是衡量數據倉庫成敗與否的唯一尺度。
實施的過程中,最好能夠把行業專家的經驗,與企業現有的需求進行整合,以期得到一個更加全面的需求范圍,有利于適應將來業務的變化和擴展。
從技術的角度來講,必須建立一個可伸縮、可擴展、高性能的數據倉庫平臺,才能為將來不斷的完善、不斷發展打下一個良好的基礎;同時,由于數據倉庫項目要涉及多個業務系統,數據量非常龐大,所以本身的投入也是很大的,在保證系統高效穩定的前提下,盡量降低成本是非常重要的。