說到大數據,是一個現在經常被提到的流行詞匯,它包含了很多行業的很多領域。在業務分析中,大數據通常意味著使用從客戶中獲得的信息,銷售預測、供應商和很多別的投入的信息,對業務做出最優決策,既包括短期的也包括長期的。大宗商品的交易員可能會用完全不同的方式使用大數據,也許他們會從氣候數據中尋求分析,這需要查看衛星和相關文本信息的其它圖像數據,來決定哪種交易適合長期或者短期。這些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的計算類型和存儲環境,作為將處理數據將它變成信息的算法是非常不同的。
最近,我和Jeff Layton在晚餐的時候會面,討論了一些來自圖表分析的不同類型的算法,到MapReduce,到圖像變化監測,和其它的,以及一些框架,例如NOSQL和有效運行這些算法的系統架構。當然,有來自很多供應商和即將成為供應商的專業設備。所以大數據對我來說就是將數據變成信息的過程,然后再變成知識。
這不是一個新現象。這不是我的名言。大約400年前,Francis Bacon先生就說過“知識就是力量。”當我們從數據中提取越來越多的信息和知識時,我和Jeff相信系統架構將會有很大的變化。沒有提取和分開檔案的信息,你將不會有靜態檔案。
我和Jeff討論了如何解決這個問題,什么類型的數據很重要以及如何移動到新計算時代。晚餐期間,我們通過兩種不同的方向,自上而下和自下而上,想到了解決大數據的方法。我和Jeff討論了寫數據本身和采取哪種提取方式取決于數據類型,以及光譜的哪一端,哪種硬件需要用來分析數據。當然,我們晚餐中間討論了操作系統、文件系統和其它的大數據架構所需要的系統軟件。得到編輯的批準,我和Jeff準備開展“Jeff 和Henry的大數據探險。”
我將會開始討論大數據算法所需要的硬件和大數據架構的問題。例如:
• 未來需要哪種架構解決MapReduce難題,未來的圖表問題或者圖像改變監測問題?
• 你是否需要SSD,SAS驅動或者企業SATA驅動?
• 需要哪種類型的存儲控制器?
• 關鍵數據歸檔問題是什么?
• 在將來,需要哪種接口——SAS、Fibre Channel Ethernet 或者其它的?
• 計劃的CPU會滿足需求嗎,或者需要GPGPU、FPGAs 或者一些不太顯眼的東西?
• 內存要求呢?未來是否DDR-3/4/5內存計劃能夠滿足需求?
• 你需要存儲分層和更大的內存?例如通過擴展CPU渠道,如SGI Ultraviolet一連接機器,或者專業的內存系統和處理器,例如Cray uRIKA?
• CPU建設是否需要緩存一致性檢查,緩存一致性帶寬對于你需要的數據類型分析有用嗎?
• 操作系統高于設備尋址底層硬件的任務嗎?
• 語言、編譯器、調試器和需要運行系統硬件的整個生態系統如何?
• 不要忘記數據的安全性,因為現在的數據已經成為信息和新建的知識,如何從你的競爭對手、敵人和不應該訪問的雇員中保存信息?
也許你想讓一些用戶看一些東西,別的用戶只能看匿名數據。醫院病人的數據就是一個主要的例子;你除了醫生不讓別人看你的實際病歷,但是研究團隊可能需要查看病情、治療選擇和結果。安全將會是巨大的問題,如信息的創建和保存在一個獨立的位置。不論它是個人的私有數據還是公司秘密,對黑客來說都是一個誘惑。不是所有人都能夠查看所有事情,每件事情都應該被追蹤,例如審查跟蹤。
這里的問題包括:
• 需要運行在這些系統之上的應用程序怎么樣呢?
• 某些查詢會比其它的更優先嗎?
• 應用程序是如何寫數據的,以方便讀取處理?
• 應用程序需要多少線程,需要一個并行編程模型嗎?如果是,編程模型是什么樣的呢,或者需要一個SMP模型嗎?將會需要使用哪種編程模型?
程序上的應用程序可以獲得任何捷徑嗎?90%的答案是獲得50%的計算處理。這90%的答案適合在框架時期給出嗎?或者你在做著生與死的抉擇的時候,在哪種情況下90%的答案是不夠好的。
倒是幸虧,服務員上菜很慢而且飯菜可口,不然我和Jeff不會有足夠的時間討論這些問題。
當然,我們沒有得出任何結論。自從我和Jeff的晚餐會議之后,我們在接下來的幾天仔細討論,并且決定將“大數據”作為我們第二年度聯合寫作項目的主題。
我們如何處理大數據
未來幾個月,我會逐步建立堆棧和忙于大數據問題,將會起始于硬件和堆棧的向上移動。因為我說過很多次,細節很重要(至少需要一些時間)。Jeff會從另一端開始,致力于堆棧的中間部分。我們會在操作系統或者編譯和函數庫中的某個地方接合。
你可能會問為什么存儲站點都在討論編譯器、調試器和類似的東西,為什么我要閱讀這些相關的?好問題。答案是,我們將會看到我們的世界正從面向數據處理到面向信息的處理的轉變。一切都將會改變,我們不希望我們的讀者運用恐龍式的舊方法。我們相信這一轉變,是如何考慮主要變化開始發生的理解關鍵。存儲只是一部分,若想成功,你不只需要了解存儲,還有新的操作環境及其需求。
這并不是說,我們相信會成為所有羅列內容的專家,因為沒有人是,甚至是嘗試成為的,但是那說明想要成功,你必須關注和了解方方面面,或者一些我也沒想到的事情和一些獨有的東西,才適合未來的發展。大數據不只是云存儲。也不是關于歸檔、備份或者其它的戰術問題。它就是談論你所擁有的,提取能夠幫助你的組織獲得成功的信息。