行業(yè)媒體Industry Outlook與Ajay Dholakia博士就組織如何實(shí)施和使用實(shí)時(shí)分析來開展業(yè)務(wù)進(jìn)行了探討與分析。Ajay是聯(lián)想數(shù)據(jù)中心集團(tuán)(DCG)的首席工程師,致力于開發(fā)大數(shù)據(jù)、分析、人工智能、醫(yī)療保健領(lǐng)域的客戶解決方案,并利用物聯(lián)網(wǎng)(IoT)和區(qū)塊鏈等新興技術(shù)推動(dòng)解決方案開發(fā)的新項(xiàng)目。在其超過25年的職業(yè)生涯中,領(lǐng)導(dǎo)了各種研究、技術(shù)、產(chǎn)品和解決方案開發(fā)以及業(yè)務(wù)和技術(shù)戰(zhàn)略項(xiàng)目。Ajay目前也是聯(lián)想DCG大數(shù)據(jù)和人工智能解決方案的首席架構(gòu)師。
Industry Outlook:如今,很多討論都集中在大量的實(shí)時(shí)數(shù)據(jù)及其為企業(yè)提供的價(jià)值上。但是所有這些數(shù)據(jù)都需要處理才能產(chǎn)生有用的見解。 IT組織在應(yīng)對大數(shù)據(jù)挑戰(zhàn)時(shí)必須解決哪些最常見的硬件和軟件挑戰(zhàn)?
Ajay Dholakia:在硬件和軟件層面,每個(gè)元素必須設(shè)計(jì)為以不同方式接收數(shù)據(jù)。隨著實(shí)時(shí)和批處理模式分析的普及,提供服務(wù)級別協(xié)議(SLA)的需求推動(dòng)了硬件設(shè)計(jì)和軟件開發(fā)的新要求。但是,只是升級硬件和/或軟件可能不足以實(shí)現(xiàn)企業(yè)可用的所有數(shù)據(jù)的全部價(jià)值。
Industry Outlook:為了應(yīng)對數(shù)據(jù)的巨大增長,出現(xiàn)了哪些主要的架構(gòu)模式?
Ajay Dholakia:在開發(fā)應(yīng)用程序以匹配數(shù)據(jù)的種類、數(shù)量和速度,而不是將數(shù)據(jù)強(qiáng)制轉(zhuǎn)換為快速變得難以處理的結(jié)構(gòu)的意義上,可以將一類新的體系結(jié)構(gòu)模式稱為“以數(shù)據(jù)為中心”。以數(shù)據(jù)為中心的架構(gòu)必須解決數(shù)據(jù)提取、聚合、清理、驗(yàn)證、集成、存儲、分析,以及最終使用的挑戰(zhàn)。這就是數(shù)據(jù)從源頭流出的方式:從存儲后的信息變?yōu)榛谧钚路治龅亩床炝Γ罱K實(shí)現(xiàn)為企業(yè)中的目標(biāo)操作驅(qū)動(dòng)行動(dòng)的決策。這個(gè)數(shù)據(jù)處理流程或管道的每個(gè)階段都需要部署一些新模式。
Industry Outlook:以數(shù)據(jù)為中心的新視角如何重塑數(shù)據(jù)中心架構(gòu)?
Ajay Dholakia:從以應(yīng)用程序?yàn)橹行霓D(zhuǎn)向以數(shù)據(jù)為中心的觀點(diǎn)正在迫使對數(shù)據(jù)中心架構(gòu)進(jìn)行一些重塑。思維方式的主要轉(zhuǎn)變是在任何可用的地方訪問、收集、處理和使用數(shù)據(jù)。因此,數(shù)據(jù)中心架構(gòu)必須靈活地連接可能在傳統(tǒng)物理邊界之外的數(shù)據(jù)源和存儲庫。它還意味著應(yīng)用程序必須具有靈活性,以便它們可以在數(shù)據(jù)所在的位置運(yùn)行,這反過來意味著應(yīng)用程序元素需要API驅(qū)動(dòng)的靈活設(shè)計(jì)。
Industry Outlook:所有的處理都必須在中央數(shù)據(jù)中心進(jìn)行嗎?還是以分布式、以邊緣為中心的數(shù)據(jù)中心會變得更加普遍?
Ajay Dholakia:鑒于大多數(shù)傳統(tǒng)數(shù)據(jù)中心都是數(shù)據(jù)處理的核心,它們是添加以數(shù)據(jù)為中心的新功能的自然起點(diǎn)。但這種方法存在嚴(yán)重的局限性。企業(yè)必須充分理解以數(shù)據(jù)為中心的方法,并掌握“數(shù)據(jù)引力”的概念。換句話說,數(shù)據(jù)傾向于保留其來源和/或收集的地方。它是新興的以邊緣為中心的數(shù)據(jù)中心背后的驅(qū)動(dòng)力。涉及延遲、響應(yīng)時(shí)間、安全性、數(shù)據(jù)主權(quán),以及數(shù)據(jù)位置的服務(wù)等級協(xié)議(SLA)都將傳統(tǒng)的中央數(shù)據(jù)中心擴(kuò)展和傳播到一系列連接的以邊緣為中心的性能優(yōu)化數(shù)據(jù)中心(POD)中,這些性能優(yōu)化數(shù)據(jù)中心(POD)可以在本地處理數(shù)據(jù),同時(shí)仍將其傳遞到中央存儲庫。
Industry Outlook:機(jī)器學(xué)習(xí)對數(shù)據(jù)分析的影響是什么?是否有必要保持競爭力?
Ajay Dholakia:我們將機(jī)器學(xué)習(xí)(ML)視為一種廣泛的分析工具集合。雖然許多機(jī)器學(xué)習(xí)(ML)算法已存在多年,但機(jī)器學(xué)習(xí)(ML)工具箱仍在不斷擴(kuò)展新的算法。特別是,深度學(xué)習(xí)(DL)作為機(jī)器學(xué)習(xí)(ML)的一個(gè)子集,正在經(jīng)歷大量的研究活動(dòng)以及獲得各行業(yè)的興趣。
Industry Outlook:是否有一個(gè)“簡單按鈕”,用于部署可以處理大量數(shù)據(jù)負(fù)載的存儲和處理基礎(chǔ)架構(gòu)?企業(yè)在做出架構(gòu)決策時(shí)應(yīng)該考慮什么?
Ajay Dholakia:在這種情況下,“簡單按鈕”位于架構(gòu)級別。確保為數(shù)據(jù)提取、存儲和處理提供架構(gòu)元素,以提供所需的性能、可靠性和可擴(kuò)展性,這是一個(gè)可以開始的地方。根據(jù)數(shù)據(jù)量、種類和速度,數(shù)據(jù)提取管道必須能夠容納所有數(shù)據(jù)源,并為批量模式和實(shí)時(shí)分析提供數(shù)據(jù)存儲。數(shù)據(jù)存儲元素必須分階段用于結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),從而隨時(shí)間的增長實(shí)現(xiàn)無縫容量增長。最后,必須提供基于訓(xùn)練模型的機(jī)器學(xué)習(xí)(ML)/深度學(xué)習(xí)(DL)模型訓(xùn)練和實(shí)時(shí)推斷的數(shù)據(jù)處理計(jì)算能力。在這里,計(jì)算集群的硬件加速器和基于可擴(kuò)展性的動(dòng)態(tài)配置是重要的特性。以這種方式構(gòu)建,基礎(chǔ)設(shè)施可以采用與分析工作負(fù)載在給定時(shí)間所需的一樣的大小和規(guī)模。
Industry Outlook:優(yōu)化實(shí)時(shí)數(shù)據(jù)分析工作流程的基本規(guī)則是什么?IT組織可以采用一刀切的方法嗎?
Ajay Dholakia:盡管一刀切的方法似乎在最初的幾個(gè)例子中起作用,但固有的低效率和不靈活性將限制整體的潛在價(jià)值。一些基本規(guī)則包括模塊化設(shè)計(jì)、API驅(qū)動(dòng)元素、在硬件和軟件級別加入加速,以及使用相關(guān)指標(biāo)監(jiān)控服務(wù)等級協(xié)議(SLA)的能力。
Industry Outlook:數(shù)據(jù)分析的主要機(jī)器學(xué)習(xí)應(yīng)用程序是什么?它們在不同行業(yè)之間有何不同?
Ajay Dholakia:基于機(jī)器學(xué)習(xí)(ML)的數(shù)據(jù)分析應(yīng)用程序差異很大。例如在金融領(lǐng)域,欺詐檢測是一項(xiàng)采用最新機(jī)器學(xué)習(xí)(ML)技術(shù)的實(shí)時(shí)分析任務(wù)。這種應(yīng)用程序的體系結(jié)構(gòu)涉及數(shù)據(jù)攝取管道、數(shù)據(jù)存儲、用于訓(xùn)練機(jī)器學(xué)習(xí)(ML)模型的批處理模式處理,以及用于在線上部署訓(xùn)練模型的流模式分析。例如,在欺詐檢測的情況下,信用卡交易,數(shù)百萬交易因此需要使用亞秒級窗口進(jìn)行處理,以聲明交易是否應(yīng)被標(biāo)記為欺詐。對于運(yùn)輸行業(yè)而言,車隊(duì)管理是一個(gè)實(shí)時(shí)分析用例。對于醫(yī)療保健行業(yè)來說,各種臨床和家庭患者護(hù)理可能涉及實(shí)時(shí)分析。
Industry Outlook:評估分析技術(shù)是否適合實(shí)時(shí)數(shù)據(jù)處理的主要指標(biāo)是什么?
Ajay Dholakia:分析引擎必須提供目標(biāo)應(yīng)用程序所需的吞吐量和延遲。因此,他們必須達(dá)到響應(yīng)時(shí)間,以便分析的見解具有影響力。此外,分析引擎需要靈活且模塊化,并且最好是基于API的,因此它們可以作為微服務(wù)添加到目標(biāo)應(yīng)用程序中。
Industry Outlook:企業(yè)如何開始啟用機(jī)器學(xué)習(xí)算法來處理實(shí)時(shí)數(shù)據(jù)?
Ajay Dholakia:企業(yè)必須制定一項(xiàng)戰(zhàn)略,以實(shí)現(xiàn)實(shí)時(shí)分析的所有要素。設(shè)置將數(shù)據(jù)源連接到分析引擎的數(shù)據(jù)管道以及分析輸出到目標(biāo)應(yīng)用程序中的可視化和使用是主要步驟。此外,訪問數(shù)據(jù)存儲庫和數(shù)據(jù)科學(xué)沙箱將有助于完成體系結(jié)構(gòu),并允許可變性來解決特定的業(yè)務(wù)問題。