方方面面的發展改進已經讓從半結構化數據中獲取有價值信息成為可能。以Hadoop為代表的新型解決方案在構建層面就充分考慮到了要如何適應跨商用服務器集群的分布式運行環境。
大數據:以需求為導向的審視角度
新型分析工具與極大豐富的處理能力為我們敞開了一道大門,如今企業已經能夠借此對龐大的業務及外部數據加以審視并獲取有價值結論。
從數據池當中挖掘有價值信息,從而實現知識提升的能力早已不算什么新鮮事。事實上,早在一個多世紀以前,這樣的處理方式就已經成為科學與商務領域的支柱性機制——其誕生時間甚至遠早于計算機、數據庫以及其它主流技術成果。
舉例來說,來自倫敦的醫師John Snow曾在1854年記錄下霍亂疫情在倫敦蘇活區的具體病例爆發位置。他根據這些數據所繪制的疫情分布圖幫助醫護人員建立起霍亂與水源之間的病理性聯系,并確定寬待的一處公共水泵正是此次疾病的源頭。政府方面立即依數據指引采取了行動,從拆除該水泵開始一步步控制住了疾病的繼續蔓延。
Snow在十九世紀的研究成果可能被普遍視為“小數據”分析的勝利。當然,時至今日,萬眾矚目的焦點其實是“大數據”,這一新興詞匯指的是兩類數量龐大的數據集合——其一為由傳統數據庫負責打理的結構化數據,其二則是以日志文件、位置數據、社交媒體內容以及富媒體信息為代表的半結構化數據。
Gartner公司對大數據進行了更為準確的規范性定義,大家可以將其概括為“3V”概念,即:“高容量(volume)、高速率(velocity)以及/或者多類別(variety)信息,需要通過新型處理機制才能借此對決策制定、結論發現以及處理優化起到輔助作用。”在這里,“速率”指的是數據會以極高節奏進行內容更新,而“類別”則代表大數據會顯示出多種格式及結構層級。
大數據時代的救世主:向外擴展計算
最終,大數據已經成為IT部門不可忽視的一類沉重負擔——其數據存儲規模開始成倍擴大。如果不解決這一首要難題,企業根本無法從中提取到具備指導意義的實際價值。
大約十年之前,對如此規模的龐大數量集合、特別是半結構化數據進行分析處理簡直可以說是癡人說夢——即使是財力最為雄厚的企業也無從下手。能夠保存、整理并分析這類數據的工具根本不存在; 換言之,即使真實存在,其高昂的購買、部署與維護成本也會令企業望而卻步。
不過時至今日,方方面面的發展改進已經讓從半結構化數據中獲取有價值信息成為可能。以Hadoop為代表的新型解決方案在構建層面就充分考慮到了要如何適應跨商用服務器集群的分布式運行環境。包括MongoDB、Cassandra、Couchbase、Neo4j在內的多種開源NoSQL數據庫帶來了類似于規模經濟的擴展機制:要添加更多計算與存儲容量,用戶只需在整套架構當中納入新的商用服務器即可——該架構能夠在面臨個別節點故障的情況下保證數據不致丟失。
大數據解決方案既能夠運行在內部環境當中,又可以棲身在公有云平臺之上——后者也正是眾多大數據解決方案的主要指向目標。像Amazon EC2(全稱為彈性計算云,即Elastic Compute Cloud)這樣的商業云能夠根據實際需求提供成千上萬顆處理器計算核心以及幾乎不設上限的數據存儲容量。目前,只需一套網絡瀏覽器、一根網線外加一張個人信用卡,每位用戶都能以每小時1.70美元的實惠價格享受到具備32個虛擬CPU、60GB內存以及600GB存儲容量的云基礎設施服務。
向外擴展計算允許數據科學家們通過分而治之的方式處理大數據計算難題,這種分布式處理幾乎能夠在瞬間從龐大的數據集中返回對應結果。與此同時,先進的分析與數據可視化技術則讓龐大而復雜的數據集變得易于理解,足以供不同領域的專家據此探尋更深層次的趨勢與規律。
大數據技術的市場規模近年來呈現出陡峭的上升曲線。根據IDC公布的2014預測報告顯示,大數據技術與服務市場將保持26%的年復合增長率、并于2018年達到415億美元的整體估值——這一速度基本相當于信息技術整體市場增幅的六倍。A.T.Kearney公司則預計,全球市場在大數據硬件、軟件以及服務領域所投入的開銷截至2018年將始終保持30%的年復合增長率。而到2018年,大數據服務與技術的整體市場規模將達到1140億美元。根據Wikkbon的統計,2014年大數據市場總體價值為285億美元,而這一數字在2015年將增長至501億美元。
商業案例:老數據中蘊藏新機遇
大數據給企業業務帶來的助益可以說顯而易見。一方面,企業能夠從數據中獲取到原本只能經由應用程序服務器或者(時間更久遠的)備份磁帶乃至文件柜提供的重要信息。最直觀的例子就是網站點擊流數據、系統事件日志以及其它一些重要記錄。這些數據隨后即可被全新的垂直應用程序體系所使用。
配合適當的數據可視化工具之后,大數據就能夠幫助各個領域的專業人士與有價值信息建立起更為直觀的聯系,并從中獲取到分析師們有可能忽略的重要模式。
不夸張地說,大數據所蘊藏的力量將只受到我們想象力的約束。下面舉幾個實例:
零售商已經開始應用這項新技術
舉例來說,蘋果的iBeacon會對客戶的活動軌跡進行追蹤,而且追蹤對象并非哪些客戶進入了直營店、而是這些客戶在經過店內各檢測位置時正在做什么。其中包括他們在哪些產品或者演示內容前駐足,具體駐足時間有多長等等。將這些數據整理起來,再結合他們最終所購買的產品,蘋果就能發現如何更加有效地對直營店組織以及產品的標注與銷售作出改革。
快捷腳本
快捷腳本每年能夠幫助醫生開具14億份處方。它會利用來自醫生辦公室、藥店、醫院以及實驗室的數據分析結果來診斷哪些病患有可能拒絕服藥或者不同藥品之間可能產生的副作用。
航班信息收集
在2013年進行的一次試點活動中,通用電氣公司對來自25條不同航線的15000次航班進行了完整的飛行信息收集,每次飛行產生的各項指標數據高達14GB。通用電氣最終將這些TB級別的飛行數據集整理起來,從而實現高達十倍的成本節約效果。到2015年,通用電氣計劃每年對100萬次航班進行監控,其完整飛行操作數據總量將達到1500TB。
數據分析機制的應用已經相當高效且演變速度極快,這甚至讓FTC(即美國聯邦貿易委員會)被迫向部分企業發出警告、稱大數據分析技術有可能給某些實施目標帶來公平性違反或導致特定群體受到損害。他們還特別強調了原本一直被認為是安全無害的某些常見數據,例如電費單、點擊流數據、信用卡交易信息甚至是收費站記錄——這些如今都能夠在大數據分析的處理下得出新型結論,且極有可能令隱私受到侵犯。
向云敞開懷抱
目前大數據領域最令人興奮的要素就是找尋那些與業務緊密相關、但卻一直未被劃入收集范疇或者受到保存的數據源。從簡單層面講,這可能需要大家將現有銷售趨勢與關鍵性經濟數據進行混合——或者采用時下最為流行的方式,在社區網絡站點上獲取與趨勢性議題相關的數據。這樣的處理機制讓個人隱私關注者們變得非常緊張。由外部數據供應商所提供的數據可能會描繪出細致程度驚人的隱私信息詳情。
隨著云計算變得愈發流行,能夠與數據分析機制相對接的可用數據源的數量也呈現出爆發式增長。其中包括對社交媒體數據、財務數據以及醫療數據的挖掘能力,這些數據通常都由經過充分定義的API加以訪問,并能夠通過互聯網進行交付。盡管本身并不具備什么實際價值,但這類數據往往會在與其它時間序列型數據結合后帶來極具意義的關鍵性信息。舉例來說,我們可以通過對個人完整履歷的深入分析來推斷此人在未來幾年中犯罪入獄的可能性,預測某款新型產品線到底是瘋狂大賣還是無人問津,甚至檢測到某人或某個群體所攜帶的未確診健康問題將給人壽保險賠付成本帶來的顯著影響。
各供應商現在開始專門在企業商務智能體系內提供這種按需數據服務,其中包括以谷歌及AWS為代表的大型IaaS以及PaaS云計算供應商。甚至政府機構也著手提供按需數據,正如世界各地不斷涌現的數據供應商根據需求為企業用戶提供關鍵性商務智能服務支持一樣。事實上,經營大數據分析服務的數據供應商群體的不斷擴大也反映出商務智能專家以及企業股東對于大數據分析中所蘊含潛在價值的肯定。
換句話來說,大數據分析并不屬于利基業務。它實際是一塊復雜的區域,在這里用戶可以從大量平臺當中作出選擇,而每種平臺都擁有著自己的優勢與不足。事實上,大多數企業用戶在現有傳統數據庫之外,最終都會同時使用多種不同類型及品牌的新型數據庫方案。
最后,如今我們也擁有了能夠實現這一系列分析任務的能力。越來越多的自動化系統足以將大數據分析與業務流程結合在一起,從而允許運營系統以近實時方式對多種閾值設定作出響應。技術業界將這種機制稱為嵌入式分析,其中可能還引入了可編程、針對性配置方案或者足以支持此類服務的相關工具等。這些技術方案在業務環境下的作用實例包括分析實時交付的各項指標、將訂單路由至擁有更出色追蹤記錄的供應商或者利用已知的關鍵性預測數據整理出銷售趨勢展望、并借此以自動化方式制定生產計劃。
平臺數量增長
Hadoop可以說是目前處理大規模結構化與非結構數據的首選平臺。該技術方案采用分布式處理框架與開發環境,通常來講只有借助特定的應用程序開發技能才能對其加以高效利用。
數據處理流程與大數據分析即服務的崛起同樣起到了巨大而深遠的顛覆性作用。Amazon目前將其Kineses平臺作為數據處理流程方案,而谷歌則將數據處理流程引入了其BigQuery——也就是該公司打造的基于云的大數據產品。利用這種數據處理流技術,開發人員能夠每秒發送高達10萬行實時數據,并以近實時方式對這些數據加以分析。這種能力對于那些要求使用實時信息的商務智能應用程序來說顯然至關重要。
現在最大的問題在于,專用型大數據分析工具到底能否在已經具備商務分析基礎設施的企業當中確切起效。很多企業已經制定了數據倉儲策略,而新型大數據解決方案則公然對其業已部署的傳統機制發起挑釁。與此同時,向新型數據分析基礎設施轉移意味著我們將面臨大量設計與實施方面的挑戰,其中包括數據整合、數據安保、數據治理、數據可視化以及解決數據復雜性等等。
商務智能不斷膨脹
傳統商務智能的設計思路在于對結構化數據加以分析,從而提取出具備實用性的結論性信息。然而由于相關數據集往往太過陳舊或者規模有限,因此分析得出的結論也經常存在局限性。此外,結構化數據僅僅是企業掌握的業務數據中的一小部分。不少分析人士估計,結構化數據在企業整體數據總量中的占比恐怕只有5%左右。
大數據技術的興起讓商務智能迎來了一系列關鍵性發展趨勢,相關方案包括以下幾種能力:
同時利用結構化與非結構化數據,并將數據匯聚成單一的信息邏輯集、進而加以可視化處理。在分析時引導結構變化,因此能夠通過對結構化或者非結構化物理數據的底層結構進行去耦來實現靈活性。利用現有或者近實時數據,允許關鍵性應用程序、業務流程以及相關人員查看到每分鐘進行更新的當前數據。在云環境下訪問來自外部的數據源,因此能夠讓商務智能分析工具獲取到企業之外的數據、進而實現數據分析流程的強化或者改進。
甚至政府機構也著手提供按需數據,正如世界各地不斷涌現的數據供應商根據需求為企業用戶提供關鍵性商務智能服務支持一樣。
將數據分析與業務流程及應用程序加以綁定,從而允許三者以無需人為干預的自動化方式實現問題處理。
大數據分析能夠通過將規模龐大且在復雜程度、格式以及時間線方面有所不同的數據整合成單一的結構化輸出結果,從而實現更出色的分析效果。大數據分析機制可以把文本、語音、流數據以及非結構化數據分析結合成統一結構,進而幫助企業通過動態分析模式從相關信息中獲取到不同角度的審視結論。這些模式能夠獲取一切適用于分析機制的數據形式,其中包括多維、單維、面向對象以及實時流程等等。
請大家記住,最為通行的趨勢在于最大程度匯聚結構化與非結構化數據。其中非結構化數據可能來自多種數據源類型,包括:
網絡頁面視頻與音頻文件文檔來自設備或者其它數據庫的流數據
商務智能工具仍然在不斷演變,旨在進一步提升對大數據分析任務的支持能力。它們能夠提供更出色的數據可視化處理功能,從而對近實時信息以及類型更為廣泛的結構化與非結構化數據加以利用。簡單來說,只要數據本身擁有任何一種形式的電子格式,我們就有機會對其加以分析。
大數據分析機制可以把文本、語音、流數據以及非結構化數據分析結合成統一結構,進而幫助企業通過動態分析模式從相關信息中獲取到不同角度的審視結論。
更多數據源,更多可能性
大數據分析所面臨的關鍵性挑戰在于,規模日益龐大的數據源本身可能并不具備固有結構。我們將這些數據源匯聚至一套較為模糊且專為數據查詢所打造的結構周邊,而后將整體結構交付至數據分析API、服務或者商務智能工具,由后者負責處理數據可視化或者其它類型的交互式分析任務(詳見圖一)。
能夠提供趨勢性數據的社交媒體API或者服務以公共數據服務為代表的外部數據源傳統非結構化數據,例如基于文本的早期數據庫
那么這一切到底是如何運作的?首先,非結構化與結構化數據會被收集到一套文件系統當中。在這里,我們考慮使用一套Hadoop分布式文件系統(簡稱HDFS)。
從理論層面講,HDFS的功能與其它大數據數據庫技術方案并沒有什么區別,不過我們可以在數據庫內部利用多種不同機制對數據加以處理。或者,大家可能會發現自己的大數據架構內部使用多種數據庫技術。總而言之,我們的具體需求決定了這一結構的實際狀況。
為數據賦予意義
當利用Hadoop進行大數據分析時,包括結構化與非結構化兩類數據,這套分析引擎能夠在數秒之內即向商務智能工具返回處理結果。大家可以利用商務智能工具來分析可視化數據、在企業應用程序內部使用嵌入式分析機制或者利用數據分析API或服務分析業務流程。
在Hadoop當中,數據以塊的形式被保存在Hadoop集群當中的不同節點內部(見圖一)。這套文件系統會為這些數據塊創建多套副本,并通過可靠的方式將其發布至整個集群、旨在實現理想的檢索速度。數據塊的大小可謂多種多樣,但一般來說HDFS的典型數據塊大小為128MB,且會被復制到集群內的多個節點之上。
我們人類用戶只處理文件,這就意味著在其進入文件系統之前、相關內容往往并不屬于嚴格意義上的結構化形式。接下來數據映射機制開始起效,通過對這些非結構化內容的處理為其定義出與內容相關的核心元數據。由于分析工具或者其它數據使用方可能會對元數據提出不同類型的要求,因此這些非結構化數據往往會被不斷重復映射、從而調整至最理想的分析狀態。
在某些情況下,我們還需要Hadoop Hive的協助。Hive是一套數據倉庫系統,能夠對保存在Hadoop集群當中的大型數據集進行數據匯總、臨時性查詢以及分析。Hive提供的機制允許我們根據數據進行結構規劃,并利用一款名為HiveQL的類似于SQL的語言進行數據查詢。其接口取決于大家的實際需求以及所使用商務智能工具的數據整合能力。
另一套選項則是Apache Pig。Pig是一款面向Hadoop的高層平臺,用于創建MapReduce規劃。它會對來自MapReduce引擎的規劃方案進行抽象化處理。與Hive類似,Pig同樣利用自己的獨特語言與數據進行交互。
總體而言,當我們通過一款商務智能工具執行查詢時,整個過程將分為以下步驟:
商務智能工具將與集群相對接,從而獲取到對應的文件元數據信息。通常情況下,商務智能工具會直接處理已經存在于分析用例或者模型當中的數據結構(詳見圖二)。大家應該將這種結構視為底層結構化或者非結構化數據的一種抽象性表現形式。從這里開始,該系統將從數據存儲節點中獲取到真正的數據塊并將其帶回至自身結構當中。實際運作當中,相關物理以及邏輯節點的具體數量是隨機的,這取決于該系統的實際要求以及架構設計方式。 MapReduce并行規模模式會從Hadoop集群當中收集數據。這套系統負責處理細節操作信息、管理跨多種可用服務器資源的流程載入機制。請求所指向的結果集會被返回至商務智能工具處,用于后續可視化處理或者其它處理方式,這通常與特定數據結構相關。商務智能工具能夠將數據分層交付至定義模型,其中包括直接從結果集中將數據加載至維度模型以實現復雜分析處理、或者將其交付至圖形表現流程。 在重復上述流程時,這部分數據將迎來增量式更新。
運轉中的結構
商務智能工具所使用的結構可以專門針對數據分析目的所創建。相關信息存在于文件系統集群當中,而元數據則根據用例所需要的支持方式被映射至對應內容。這就為用戶帶來了一類更具動態以及靈活特性的商務智能解決方案。
這是一類非常常見的場景,而大家所選擇的商務智能工具當中可能包含多種不同類型的具體方案。很多商務智能工具使用的映射機制能夠使數據擁有如存儲在傳統關系型數據庫中的效果。此類工具還能發揮大數據技術的大量原生性功能優勢,其中包括在對象利用等分析模型中以不同方式對結構化與非結構化數據加以處理的能力。
某些商務智能工具能夠將經過總結或者匯聚的數據載入至一套臨時性多維“立方(cube)”結構當中(詳見圖三)。這就允許分析人員以最具實用性的方式對來自大數據系統的信息進行可視化處理。
這種模式的差異之處在于,現在結構化與非結構化兩類數據都能進行可視化處理。此外,新型與經過擴展的分析機制也能夠借助這類可用性數據的交付而成為現實,例如:
報告或者描述性分析建模或者預測性分析集群化關聯性分組
在大數據分析領域,最重要的一點在于新型思維方式正在不斷興起。如今數據已經可以由任何有意對其加以審視的人進行探索。我們的視野已經不再局限于有限的自有業務數據范疇,惟一束縛我們實現數據整理及編輯的因素就只有想象力這一項。除此之外,我們的分析模式,例如預測性模式,在數據完整性的不斷提升之下足以提供更為理想的處理結果。
大數據可視化與分析用例
對于大數據的高度關注可以說貫穿于整個垂直業界當中,但專業知識與投資額度卻呈現出廣泛而且差異化顯著的分散態勢(詳見圖四)。教育、醫療以及交通行業在2012年成為最為積極的大數據技術受眾。
到如今的2014年,我們的關注重點開始轉向將數據交付給在業務流程中扮演操作角色的工作人員,或者利用數據在分析機制與應用程序或業務流程之間建立起直接關聯。這意味著在正確的時間將正確的數據交給正確的使用者。對于大數據分析系統的構建者——通常采用我們之前所提到的各類技術方案——這意味著大家需要從原本企業領導者所關注的商務智能角度轉向實際操作人員更為關注的功能性層面。
數據維度
商務智能工具利用大量分析模型與結構對大數據加以分析。在這種情況下,數據將被載入至一套多維臨時性模型當中,并在這里以多種方式進行可視化處理。
您所在的企業是否已經在相關技術方案領域進行投資,旨在通過特殊設計
解決大數據層面的實際挑戰?
根據Gartner公司的調查,幾乎所有垂直行業都開始在大數據分析領域進行投資,其中教育、交通與醫療行業投入態度最為積極。
在多數情況下,這意味著支持實時或者近實時數據分析機制。最直觀的例子就是倉儲經理需要通過一份包含未來幾個月庫存預估情況的預測性報告來部署執勤人員,或者是醫師根據病患整體追蹤數據來判斷當前患者是否會對某種藥物產生不良反應。我們甚至有能力利用來自工業 機器人的匯總數據來評估未來四千個小時內整套系統是否會出現運作故障。
大家不妨考慮以下幾種用例:
用例:業務流程改進
大數據分析能夠幫助企業以更為具體且準確的方式對自身業務狀況進行審視,其中自然包括業務流程的生產效率。分析機制能夠在數據可視化方案中以高亮效果標注出業務流程當中未達到既定標準的部分。
舉例來說,在數據可視化技術的輔助下,企業用戶可以從細節角度觀察銷售流程記錄以及出貨步驟,并了解其與其它業務流程及客戶滿意度之間的關系。對整個業務流程加以優化能夠大大降低意外狀況,從而保證業務合作關系的穩定發展。
用例:關鍵性業務應用程序強化
在與企業運營應用程序相結合之后,嵌入式大數據分析機制能夠帶來可觀的商業價值。舉例來說,一家企業可以將出貨應用與分析信息相結合,從而在數TB規模的多年出貨記錄PDF文件當中整理出按時交貨記錄。這類數據也可以由來自外部數據源的信息構成,例如客戶在社交媒體或者博客中表現出的抱怨情緒。
用例:改進醫療方式與成效
醫療系統往往會通過多種不同格式在不同位置保存我們的信息,這就導致分析機制往往很難甚至無法將此類數據作為單一信息集群加以處理。但在大數據分析機制的幫助下,我們如今可以將所有結構化與非結構化醫療數據收集起來,并將其作為單一集群供商務智能工具加以分析。這能夠幫助醫療專家以預期療效為基準對病患歷史數據及療法進行審視,從而大大提高其設計療法成功治愈疾病的可能性。
用例:改善零售企業業績表現
零售企業需要通過對特定市場及客戶的深入了解來構建起屬于自身的獨特競爭優勢。在這方面,大數據分析同樣擁有極為可觀的潛在價值。由其驅動的商務智能工具可以創建出對應模型,通過收集自龐大非結構化數據的預測性數據點來評估一款產品獲得成功的可能性。
這類數據當中可能包含對現有客戶群體的人口統計信息,并將其與過去曾經獲得成功的產品作出模式比對,進而歸納出哪些氣候模式能夠確切影響到產品的市場接受情況(例如在氣溫極低的寒冬,羽絨服往往會大受歡迎)。這種思路旨在為零售企業中的核心決策者提供經過深度剖析的數據處理結論,從而了解應該對哪些產品進行大力宣傳、優惠銷售或者對其展示位置進行調整。
用例:改進交通系統
交通系統的核心訴求在于效率提升。舉例來說,航空公司在設定航線時需要選擇最平順而且最有利可圖的路線。在大數據分析機制的幫助下,決策者們可以利用包含有關鍵性預測指標、能夠真實反映收集自外部數據源的數據集的歷史信息評估哪些路線最具商業開拓價值。
大數據分析允許航空公司從政府機關手中收集到多年以來積累下來的飛行數據,其中包括起飛位置、乘客數量以及按時抵達記錄等等。他們隨后可以將來自其它航空公司的價格信息與這部分數據進行比對。在預測性數據中,他們還可以添加過去幾年中潛在乘客對目的地的網絡搜索次數,再加上這些地點在社交媒體中被提及的頻率。通過將這些數據模型交付給商務智能工具,航空公司即可非常明確地找出可行而且能夠切實帶來收益的全新航線,甚至還包括未來機票的銷售情況乃至建議售價。
為企業規劃出發展道路
為了盡可能發揮大數據分析機制的潛能,大家需要將自身從傳統商務智能與數據倉庫體系當中解放出來。遺憾的是,創造商務智能方案的技術人員往往傾向于將傳統商務智能機制強行納入全新大數據世界(這顯然有些格格不入)。這樣一來,他們就會錯失發揮這一新型技術巨大能量的機會甚至遭遇慘痛的失敗。
除此之外,大數據技術市場目前確實呈現出相當嚴重的碎片化與復雜化態勢。作為發展的早期階段,每家廠商都在打造純Hadoop類型的實施方案; 但時至今日,企業用戶已經意識到自身特定需求必須由針對特定目的打造的數據庫來實現,其中包括內存內、NoSQL或者其它一些專注于特殊功能的數據庫技術,例如性能、大規模數據存儲或者與公有云供應商的對接能力等。
將公有云作為大數據技術主機的方案既帶來良好的發展機遇,同時也造成了不少難題。大數據技術通常采用以云為基礎的多租戶機制,此外也為用戶提供能夠運行在內部環境下的版本。盡管公有云在可擴展性與成本效益方面具備相當程度的優勢,但企業仍然需要為其安全性及合規性保障操心費力。此外,當下的大部分數據都散布于其原本生成之處,且需要由托管在公有云內部的大數據系統加以逐一收集。
也就是說,大數據分析對于企業業務的可觀助力極具價值、不容忽視。大多數企業需要就當下開始著手建立自己的大數據發展戰略,或者是對幾年前所打造的現有大數據戰略作出更新及調整。為了達成這一目標,下面我們一同來看在企業內部實施大數據分析方面的幾點建議:
1. 從技術角度出發了解核心業務的實際需求,并以此為基礎創建業務用例。確保我們的注意力始終集中在戰略價值層面——例如如何更好地理解歷史業務記錄——以及戰術價值層面——例如如何在未來幾年內顯著降低庫存成本。
2. 對自己的數據源加以定義。它們在哪里?它們到底是什么?如何最具效率地與數據源對接并根據需要進行內容復制?這意味著確切定義數據整合問題,從而順利將其從A點轉移至B點。
3. 定義已知用例,其中包括未來要用到的、能夠切實理解數據內容的分析模型。
4. 創建一套概念驗證機制,用于深入了解技術方案本身以及將該技術引入企業環境可能帶來的復雜性難題。
5. 考慮性能表現、安全性以及數據治理方面的問題。這些問題通過會受到忽視,但在成功的實施體系中卻又不可或缺。
6. 投入時間與金錢對商務智能技術的功能與特性進行評估。商務智能與數據可視化方案的作用是為大家開啟審視數據的窗口,而任何局限性都會大大影響到數據價值的挖掘與發揮。
7.嚴格定義成功指標。在使用大數據分析技術的一年之后評估哪些元素正常運行,哪些卻未能順利起效。無需引發太多破壞性影響,我們就能對技術項目作出調試。
8. 最后,確保為這項技術創建一套發展路線圖。其中應當包含目前的使用方式以及短期與長期業務規劃。了解與計劃實施的技術相關的重要發展趨勢,其中包括可選方案、底層技術以及可能獲得成功的方案供應商,最后還要加上哪些選項最適合自身企業在未來的發展需要。
大數據分析技術的價值在企業領域已經非常明確。充分利用良好信息的能力一直是擺在IT部門面前的重要難題與挑戰。現在我們已經擁有了足以解決這一難題的工具,接下來要做的就是想辦法使其為自己服務了。