雖然云計(jì)算使用起來非常方便,對于用戶來說也具有較好的成本效益,但它在整合和處理數(shù)據(jù)方面也可能帶來新的挑戰(zhàn)和要求。
云計(jì)算的出現(xiàn),讓企業(yè)在投資IT和商業(yè)應(yīng)用時(shí),多了一種部署選擇,不再僅限于本地部署。但云環(huán)境也經(jīng)常會增加企業(yè)使用的系統(tǒng)的數(shù)量,此外,企業(yè)還需要具備跨平臺的集成和數(shù)據(jù)數(shù)據(jù)準(zhǔn)備的能力,只有這樣他們才能整合不同來源的數(shù)據(jù)。
從本質(zhì)上說,使用云計(jì)算讓企業(yè)的成本由硬件和軟件支出轉(zhuǎn)變持續(xù)的運(yùn)營支出。云計(jì)算還可以簡化現(xiàn)金流和并降低成本,讓企業(yè)能夠?qū)⒊杀局饕度朐谄湔嬲枰募夹g(shù)上,并有足夠的成本來擴(kuò)大其IT系統(tǒng),此外,該企業(yè)不必?fù)?dān)心它的硬件會過時(shí),因?yàn)樵破脚_提供商可以負(fù)責(zé)對云環(huán)境中進(jìn)行不斷的系統(tǒng)升級。
云環(huán)境的好處吸引了一系列的企業(yè),這些企業(yè)正在以一些不同的方式使用云計(jì)算技術(shù),主要集中在以下三個(gè)用例。
使用云服務(wù)直接替換本地系統(tǒng)。在這種情況下,IT團(tuán)隊(duì)依舊負(fù)責(zé)云端應(yīng)用程序端到端設(shè)計(jì)、開發(fā)、測試、實(shí)現(xiàn)和管理工作。這降低了企業(yè)在新技術(shù)上的支出,并允許它保持對應(yīng)用平臺的完全控制。
使用軟件即服務(wù)(SaaS)應(yīng)用程序,如使用Salesforce提供的應(yīng)用程序。除了降低設(shè)備成本,使用SaaS的方式還簡化了應(yīng)用軟件的實(shí)現(xiàn)和管理,這些軟件通常是負(fù)責(zé)處理企業(yè)重點(diǎn)功能,如銷售、營銷、客戶服務(wù),財(cái)務(wù)和人力資源等。
使用完全管理的平臺即服務(wù)(PaaS)環(huán)境。在PaaS設(shè)置中,云服務(wù)提供商負(fù)責(zé)設(shè)計(jì)、部署、后端處理和數(shù)據(jù)資源管理。
云中數(shù)據(jù)無處不在
盡管云提供很多好處,但它還是有一個(gè)顯著的缺點(diǎn):平臺,應(yīng)用程序,工具和數(shù)據(jù)的位置相對分散。雖然云系統(tǒng)對用戶來說更加便捷,成本較低且速度更快,他們?nèi)孕枰⒁粋€(gè)新的模式,數(shù)據(jù)分布跨越了不同的系統(tǒng),也跨越企業(yè)和行政邊界。大數(shù)據(jù)平臺越來越多地部署在云中,考慮到它們包含的數(shù)據(jù)量,這可能會帶來一些管理上的挑戰(zhàn)。
這種數(shù)據(jù)的分散也導(dǎo)致了一些問題,例如在管理和使用云端數(shù)據(jù)方面。對于初學(xué)者來說,在云中如何妥善管理各種數(shù)據(jù)集的數(shù)據(jù)模型和元數(shù)據(jù)?進(jìn)一步來說,如何訪問所有的數(shù)據(jù)?如何保證不同數(shù)據(jù)集的同步,協(xié)調(diào)使用這些數(shù)據(jù)?
這樣的問題在商業(yè)智能,報(bào)告和分析應(yīng)用上更為明顯。使用者必須采取一定的方法,以便在不同的云平臺,應(yīng)用程序和數(shù)據(jù)存儲間完成數(shù)據(jù)集成和數(shù)據(jù)準(zhǔn)備過程,如同在本地部署系統(tǒng)中完成數(shù)據(jù)集成和數(shù)據(jù)準(zhǔn)備過程一樣。同時(shí),你還必須提供一個(gè)可操作的用戶界面,以供業(yè)務(wù)分析師,數(shù)據(jù)科學(xué)家和其他智能分析用戶查找,準(zhǔn)備和分析相關(guān)的信息集。
架起數(shù)據(jù)間的橋梁
事實(shí)上,這些問題目前存在一個(gè)解決方案,那就是使用那些支持跨平臺的數(shù)據(jù)集成和數(shù)據(jù)準(zhǔn)備軟件。這些工具,也包括自助數(shù)據(jù)準(zhǔn)備軟件,它提供了主流關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新的NoSQL數(shù)據(jù)庫之間的連接器。該工具還可以鏈接到Hadoop集群和數(shù)據(jù)湖泊,獲取存儲在Hadoop分布式文件系統(tǒng)和相關(guān)的數(shù)據(jù)存儲庫中的數(shù)據(jù)。
此外,這些跨平臺工具還可以攝取非結(jié)構(gòu)化的文本文件和結(jié)構(gòu)化的XML以及JSON文件,此外它們還可以攝取社交網(wǎng)絡(luò)的數(shù)據(jù)流,網(wǎng)站點(diǎn)擊流日志和股票市場數(shù)據(jù)。而且,他們還可以連接到SaaS應(yīng)用程序和云服務(wù),將產(chǎn)生的數(shù)據(jù)與其他所需信息數(shù)據(jù)整合,完成數(shù)據(jù)準(zhǔn)備過程的自動化。
跨平臺工具擁有其他三個(gè)關(guān)鍵屬性。首先,它們能夠直接將數(shù)據(jù)引入到任何選定的平臺,這與傳統(tǒng)的數(shù)據(jù)集成工具相比是一個(gè)很大的區(qū)別,傳統(tǒng)數(shù)據(jù)集成工具是將數(shù)據(jù)從源系統(tǒng)抽取到一個(gè)單一的區(qū)域。第二,無論所需的數(shù)據(jù)存儲在哪里,它們都能讓終端用戶非常容易的訪問到數(shù)據(jù),在數(shù)據(jù)展示層面,它們還支持?jǐn)?shù)據(jù)可視化工具。第三、跨平臺工具提供對數(shù)據(jù)集語義類別劃分;其所存儲的業(yè)務(wù)元數(shù)據(jù)能夠提供有關(guān)數(shù)據(jù)元素的細(xì)節(jié),定義和結(jié)構(gòu);它們還提供了數(shù)據(jù)集成過程所需相關(guān)的業(yè)務(wù)規(guī)則。
所有這一切都表明,跨平臺的數(shù)據(jù)集成和數(shù)據(jù)準(zhǔn)備工具不僅僅是改進(jìn)了在混合數(shù)據(jù)源上(本地部署或云端)的數(shù)據(jù)提取、轉(zhuǎn)換和加載過程。新興的技術(shù)還融合了各種功能,提供了一個(gè)統(tǒng)一的方式來訪問,準(zhǔn)備,查詢不同的數(shù)據(jù)以及實(shí)現(xiàn)數(shù)據(jù)的可視化。云環(huán)境中分散數(shù)據(jù)集也有了其對應(yīng)的數(shù)據(jù)管理方式。