“變化,無論是突如其來的,還是循序漸進的,有時都會淘汰你認為理所當然的一切。忽略這一現實,就像近年來許多領導者那樣會帶來毀滅性的后果。”商業大師拉里。博西迪在他的暢銷書《轉型》中曾寫下的這段話,如今看來依然經典。唯一不變的就是變化,傳統行業面對互聯網、數字化的沖擊,必須積極需求轉型來應對變革。
對于電信行業尤為如此。在國家政策變化、新業態沖擊以及用戶飽和等內外部眾多因素的影響下,三大運營商的增長放緩甚至下滑已經成為常態。而反映到運營商的IT部門,這就意味著大手大腳花錢的“好日子”已經一去不復返了。如何花更少的錢支撐更多的用戶需求與數據量?這是擺在電信人面前的一道難題。
“互聯網化(以更低的成本以及可線性擴展的云化新架構來滿足日益增長的業務需求),是公司管理層面提出的新要求。”在接受記者采訪時,北京電信運維主管隋毅如是說。
狠下一條心,“去I、E”!
過去幾年“IOE”對于電信來說幾乎是標配,小型機加高端存儲再配以Oracle數據庫的組合能夠帶來足夠的穩定性,但后續擴展與維護的成本不菲,而且這種架構在支撐互聯網業務時也已“疲態盡顯”。隋毅對此頗有感觸。
“我們的計費域和經分域核心系統都是基于傳統的IOE架構建設的,最近幾年發生過幾次現網計費ABM系統在業務高峰時期的大交易量導致系統壓力過大、差點導致業務無法辦理的情況。這也是我們這次下決心對系統進行改造的主要原因。”隋毅說。
隋毅告訴記者,北京電信帳務、計費和數據倉庫(ODS)都是北京電信的核心IT支撐系統。其中,帳務系統主要實現了帳務管理、客戶業務明細辦理、業務明細查詢等重要業務功能,同時也為其他重要系統,包括計費銷賬、10000號客戶服務等系統提供重要接口。而ODS系統作為經分系統的核心,主要承擔歷史數據存儲、查詢和經營分析等功能。這兩個系統對業務運行的性能與安全穩定有著非常高的要求,同時它們對于整個計費和經分系統的正常運行起著不可或缺的作用。
將支撐業務運營的核心數據庫從IBM小型機遷移至X86架構并通過ADG方式實現部分業務讀寫分離,同時由閃存替代原有的EMC存儲,對于采用這樣的全新架構,并在極短的時間完成跨平臺遷移,北京電信還是第一次嘗試。因此,隋毅也提出了幾點顧慮:
首先,遷移后計費庫、賬務庫由原來的兩套RAC集群(4臺IBM小型機)變為同一套Oracle RAC集群支撐兩套核心庫運行(兩臺PC服務器),ODS庫則從基于IBM小型機的RAC變為基于PC服務器的RAC,新的平臺與硬件環境,其整體性能以及穩定性能否保證?其次,計費庫、賬務庫達到5TB,ODS的數據量超過10TB,跨平臺的遷移是否能在一夜甚至4個小時之內順利完成?
遷移有難度,選型很重要
跨平臺(AIX to Linux)的海量數據遷移,對于任何一家企業來說都不是件容易的事,而選擇合適的方法至關重要。在經過了一系列交流與論證之后,北京電信決定采用“XTTS”(跨平臺表空間傳輸)的方法來實施最終的遷移,并選擇了云和恩墨作為本項目的實施方。
云和恩墨CTO,Oracle ACE總監楊廷琨向記者介紹,傳統的OGG同步方式并不適用于超大數據規模的數據庫遷移工作。因為跨平臺的數據遷移涉及到字節序的轉換,無法采用物理同步的方式進行數據初始化,只能采用邏輯同步(導出導入)的方式完成初始化,然而這種處理方式,又會帶來長時間的停機、復雜的操作和大量測試、數據比對的工作,耗費大量的人力、物力,出錯率極高。因此,只有借助XTTS這種兼有物理和邏輯同步優勢的技術,才能完美的實現目標數據庫的遷移目標和要求,這種技術能夠最大程度的降低業務停機時間,同時由于具備物理同步的特性,在同步完成之后也不再需要繁瑣的數據比對校驗,能夠確保數據的一致性。
而在談到為何選擇云和恩墨時,隋毅表示:“在幫助運營商進行系統升級改造方面,云和恩墨擁有非常豐富的經驗。他們曾協助四川電信等多家客戶成功實施了核心數據庫的XTTS跨平臺遷移工作,并且取得了很好的效果。同時,云和恩墨擁有業內最頂尖的數據庫專業服務技術團隊,幾乎囊括了國內IT服務商中所有的Oracle ACE總監和大部分Oracle ACE專家,這讓我們對項目成功實施充滿信心、也是我們最終選擇云和恩墨的根本原因。”
系統遷移的一小步 互聯網化的一大步
在整個項目中,云和恩墨技術團隊從前期可行性研究、整體架構規劃、遷移方案設計與測試、正式實施及后期系統穩定性保障,提供了一站式全流程的去IE、升級遷移服務,同時配備頂級的專家服務嚴控技術專業度與項目質量,確保這些核心系統數據庫跨平臺遷移的萬無一失。
楊廷琨介紹,云和恩墨團隊在項目實施過程中從x86服務器性能與穩定性、存儲IO性能、真實應用壓力測試、XTTS遷移方案等多方面進行了全方位的可行性驗證,最終通過Oracle XTTS結合增量備份的方案完成了所有核心庫升級遷移。
事實證明,北京電信的選擇是正確的。在云和恩墨技術團隊和北京電信的共同努力下,單套5TB級數據庫在不到3小時的停機時間就完成了從小型機到x86環境的遷移。同時,為確保數據庫的高可用性、數據保護及災難時可恢復,云和恩墨還通過Active Dataguard(ADG)構建了生產數據庫的數據級容災環境,并借助ADG提供了客戶應用的讀寫分離,更為高效的支撐業務整體運行。
遷移實施已經過去了數月,在新的環境下,北京電信計費庫及賬務庫的整體運行穩定,通過高配置PC服務器+部分應用讀寫分離,業務高峰時段承載兩套核心庫的主生產系統整體運行穩定,平均CPU使用率10%左右,系統整體吞吐量得到了明顯的提升。
對這一結果,隋毅表示非常滿意:“感謝云和恩墨團隊在本次數據庫遷移項目中的辛勤付出。通過本次項目,我們成功實踐了互聯網化去‘I、E’的要求。在支撐新業務方面,系統的性能提升效果非常令人滿意,同時進一步節約了運維成本,為我們今后互聯網化工程項目陸續落地打下了堅實的基礎。”
楊廷琨表示:“當北京電信面臨架構擴展性問題和大數據量跨平臺遷移等難題時,云和恩墨團隊充分發揮技術優勢,經過充分的論證和測試,選擇了技術實現難度最大,但停機時間最短、對客戶業務影響最小的技術方案。在正式遷移過程中,僅停機3個小時就幫助客戶完成超過5T數據量的U2L遷移。單純討論技術的專業性和領先性意義不大,只有能夠幫助客戶取得成功的技術才是有意義的。‘數據驅動,成就未來’是云和恩墨的服務理念,而通過這次遷移項目,也非常好地詮釋了我們的這一理念。”