大數(shù)據(jù)對于企業(yè)的重要性已經(jīng)不言而喻了,現(xiàn)在企業(yè)都在積極收集結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行實時處理和分析,并希望從中尋找到新的業(yè)務(wù)機會。隨著技術(shù)的發(fā)展,數(shù)據(jù)的開源也漸漸變得多樣化,例如,傳感器、物聯(lián)網(wǎng)、社交等等,企業(yè)也在積極投資大數(shù)據(jù)項目,如從數(shù)據(jù)湖、處理框架到分析工具再到英特爾硬件等等。
當(dāng)大量的數(shù)據(jù)涌入到系統(tǒng)中,如何采集和管理信息就變成了關(guān)鍵。
用戶可以利用由x86處理器橫向擴展配置所提供的增加的分析計算能力,但并不是所有的公司都對數(shù)據(jù)質(zhì)量很挑剔。
新時代,不準確的數(shù)據(jù)可能會導(dǎo)致很嚴重的后果,所以數(shù)據(jù)需要更可靠的技術(shù)。例如一家金融服務(wù)公司,是根據(jù)客戶位置信息和購物數(shù)據(jù)來銷售保險的,如果數(shù)據(jù)在創(chuàng)建、傳輸、存儲和分析等環(huán)節(jié)中出錯,那么很可能會有很多不好的結(jié)果產(chǎn)生。
Melanie Mecca表示有償?shù)臄?shù)據(jù)并沒有獲得足夠的重視,它被視為功能,技術(shù)和自動化功能管中的牙膏,而本身從未被視為組織業(yè)務(wù)的基礎(chǔ)和生命之源。
大數(shù)據(jù)標準應(yīng)該是什么樣?
國家物理實驗室(NPL)試圖解決這個問題,不良資產(chǎn)正在努力通過引入一種系統(tǒng)的方法來創(chuàng)造數(shù)據(jù)可信度。NPL院士Alistair Forbes表示:"我們試圖將我們的思維方式應(yīng)用到測量領(lǐng)域,思考它如何應(yīng)用到數(shù)字領(lǐng)域。
在考慮大數(shù)據(jù)質(zhì)量時,NPL將著眼于四個方面:收集,連接,理解和信心。
收集意味著驗證數(shù)據(jù)的來源并評估其可信度和準確性。從一個未經(jīng)驗證的數(shù)據(jù)源獲取數(shù)據(jù)而沒有測量數(shù)據(jù)質(zhì)量是一個隱患很多的舉動。
連接之后如何傳輸數(shù)據(jù)以及在干擾情況下是否進行了適當(dāng)?shù)募m錯。
理解意味著確保數(shù)據(jù)"正確"。當(dāng)我們使用來自多個來源的數(shù)據(jù)進行分析時,我們?nèi)绾未_保通過這些數(shù)據(jù)源的不確定性傳播得到正確理解。現(xiàn)在傳播建模的最佳工具是由NPL和國際社會開發(fā)的"測量不確定度指南"(GUM)。它描述了不確定性如何在不同的傳感器和數(shù)據(jù)源之間傳播,以及決策的意義。
Stansfield 表示"如果你試圖引導(dǎo)人們收集信息,并放在一起使用,這就是不確定性的流動。所以你在進行系統(tǒng)級的設(shè)計時就要考慮好這個問題。
Forbes將其描述為一個相對較窄的指南,而不良貸款研究機構(gòu)正在進行這項研究,將其擴展到不確定性傳播的范圍。我們正在從不確定性傳播范式轉(zhuǎn)變?yōu)椴淮_定性量化范式,這是對不確定性來源的全面評估,并試圖使用更好的統(tǒng)計工具對其進行解釋。
今天,我們通過建模來確定事物的確定性,但隨著模型變得越來越復(fù)雜,這種方式也會變得越來越困難。NPL正在開發(fā)一種方法來量化與模型相關(guān)的不確定性,它主要是針對工程領(lǐng)域,衛(wèi)星成像以及生命科學(xué)的其他領(lǐng)域。除此之外,NPL還在探索如何將有質(zhì)量的數(shù)據(jù)存儲為機器可讀,使這些數(shù)據(jù)更易于訪問。
當(dāng)然,除了NPL在對數(shù)據(jù)源提供信心,還有很多其他組織也在積極努力。例如,英特爾與美國能源部的國家能源研究科學(xué)計算中心(NERSC)和五個英特爾并行計算中心(IPCC)合作建立了一個大數(shù)據(jù)中心(BDC),為創(chuàng)建用于數(shù)據(jù)管理的強大基礎(chǔ)架構(gòu)而努力。
同時針對于特定行業(yè)的解決方案也逐漸成形,今年夏天,英特爾與汽車制造商豐田(Toyota)等公司宣布建立汽車邊緣計算聯(lián)盟(Automotive Edge Computing Consortium)。該小組將致力于汽車行業(yè)新興移動技術(shù)的標準,最佳實踐和體系結(jié)構(gòu)。
進一步看大數(shù)據(jù)標準
英特爾也一直努力在大數(shù)據(jù)方面尋求突破,例如調(diào)整英特爾架構(gòu)上的數(shù)據(jù)處理平臺,與開源企業(yè)數(shù)據(jù)管理方面Hadoop專家Cloudera合作。Hadoop正在逐步成為行業(yè)標準的大數(shù)據(jù)處理平臺,而英特爾在全球數(shù)據(jù)中心市場的份額超過90%,這意味著兩者之間可能存在重疊的部分。英特爾和Hortonworks正在制定聯(lián)合路線圖,以加速加密和解密,數(shù)據(jù)壓縮和解壓縮,緩存和I / O密集型工作負載的性能。
與此同時,SAS正在制定可以幫助改善大數(shù)據(jù)環(huán)境質(zhì)量管理的指標。其數(shù)據(jù)產(chǎn)品管理總監(jiān)Ron Agresta表示,在客戶互動中經(jīng)常使用的指標包括完整性,一致性和準確性。很多企業(yè)都會積極做檢查分類,以便及時有效的匯總起來,并反映到儀表盤上。當(dāng)然,每個客戶對于指標以及數(shù)據(jù)使用的要求都有所不同。
SAS數(shù)據(jù)管理高級產(chǎn)品營銷經(jīng)理Todd Wright表示:"我認為在當(dāng)前的環(huán)境中看不到任何標準的數(shù)據(jù)管理方式。大數(shù)據(jù)質(zhì)量的標準只在醫(yī)療保健等嚴格管理的領(lǐng)域得到了具體部門的處理。即使在同一行業(yè),每個組織都面臨著各種各樣的問題,尤其是在供應(yīng)商中,沒有一個標準的方式來解決大數(shù)據(jù)的這些問題。
數(shù)據(jù)質(zhì)量和治理框架應(yīng)該放在更高的層面上。Mecca企業(yè)發(fā)起了數(shù)據(jù)管理成熟度(DMM)。它側(cè)重于我們管理堆棧的上層,查看人們用來確保數(shù)據(jù)質(zhì)量和一致性的技術(shù)。
這是我們必須要做的事情,這個組織并不是從技術(shù)角度出發(fā),而是側(cè)重于數(shù)據(jù)決策,是一個人員流程。DMM著眼于數(shù)據(jù)管理(為數(shù)據(jù)和元數(shù)據(jù)存儲庫創(chuàng)建業(yè)務(wù)詞匯表),數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量等領(lǐng)域。
EDM委員會也有自己有效管理大數(shù)據(jù)的框架,稱為數(shù)據(jù)管理能力評估模型(DCAM)。EDM委員會的語義和標準主管Mike Bennett表示:他們可以提供一個包含數(shù)據(jù)質(zhì)量各個方面的圓形圖表。
大數(shù)據(jù)為更多的洞察力和新業(yè)務(wù)提供了巨大的潛力,但隨著更多的設(shè)備連接和數(shù)據(jù)合并在一起,潛在錯誤明顯增加,而缺少對數(shù)據(jù)管理的統(tǒng)一標準或共識將使這種情況加劇。
隨著供應(yīng)商和研究人員應(yīng)用更多的專業(yè)知識幫助客戶提高數(shù)據(jù)的質(zhì)量和管理水平,達成大數(shù)據(jù)管理共識將是可實現(xiàn)的現(xiàn)實。如果數(shù)據(jù)是新石油,那么一種新的經(jīng)營方式就變得至關(guān)重要,不僅要識別數(shù)據(jù)中的錯誤,而且要能夠追溯到原來的數(shù)據(jù)。