數據存儲曾經是大數據的最大挑戰。由于云計算基礎設施的進步,存儲數據不再是關鍵問題。如今,數據科學家所面臨的最大問題是數據收集。
集群化使得大數據分析更容易。然而,集群也給數據工程師帶來了必須解決的問題。
什么是數據集群?
數據集群的概念可追溯到至少20年前。美國俄亥俄州立大學計算機科學和工程系教授Anil Kumar Jain博士在他的白皮書之一中對這一術語進行了很好的描述:
“集群是模式(觀察,數據項或特征向量)到組(集群)的無監督分類。集群問題在許多領域和許多學科的研究人員那里都得到了解決;這反映了其廣泛的吸引力和實用性,作為探索性數據分析的步驟之一。然而,集群的組合是一個困難的問題,不同社區的假設和背景差異使得有用的通用概念和方法的傳遞變得緩慢。“
換句話說,數據工程師使用集群來識別原始數據中的趨勢和模式。他們需要將其分解成群集。
數據集群的主要挑戰是什么?
自從大數據的概念誕生以來,集群一直是一個挑戰。這個問題源于數據量和處理限制。拉巴特大學列出了大數據集群的首要關注點。
(1)數量
大多數網絡上存儲的數據量呈指數級增長。隨著數據量的增加,提取數據變得更加困難。備份數據也可能放大這些問題。
(2)速度
數據生成的速度是數據科學家面臨的另一個集群挑戰。這個問題不僅限于網絡上的數據量。當網絡以前所未有的速度生成新數據時,他們將很難實時地提取它。
造成的問題是雙重的:
•新的模式將不斷地從已知的數據集涌現。數據分析師可能認為他們很難從數據中得出準確的結論,而事實上,他們的分析更能代表他們所建模的問題。他們可能不知道什么時候分析他們現有的數據集,以及何時等待收集更多的數據。
•如果數據的創建速度比提取的它速度快,那么當他們試圖收集數據時,趨勢可能會發生變化。
隨著網絡使用物聯網(IoT)從更多的設備收集數據,他們能夠以更快的速度收集數據,問題將會越來越嚴重。
(3)品種
集群數據存儲在許多不同的表單中,這使得很難進行精確的比較。有些數據以結構化格式存儲,而其他數據集可能是完全非結構化的。
如何解決這些問題?
有各種各樣的工具和策略可以簡化抽取和分析集群數據的過程。
K均值集群
K均值集群方法是一種基于分組的解決方案,需要網絡將對象分配給一個集群。這消除了單個對象可能通過出現在多個數據集中而偏離分析的擔心。
無監督分類算法
無監督分類算法是基于預定義參數合并非常大的數據集的數據挖掘工具。這是處理日益增長的數據量的一個很好的解決方案,特別是使用強大的Hadoop工具。
COALA
COALA使用實例級約束來避免類似分組引起的問題。不需要滿足100%的約束條件。
降低維度
每個數據有兩個維度:
(1)變量。
(2)實例。
隨著變量數量的增加,總數據量呈指數增長。可以通過使用降低維度策略(也就是所謂的降維變換)來緩解問題。
確定數據集群挑戰的新解決方案
數據集群是解決存儲大量結構化和非結構化數據所帶來的許多問題的解決方案。然而,這不是一個可靠的解決方案,因為數據仍然需要盡可能快速準確地被訪問和分析。幸運的是,有一些很好的工具和方法可以簡化流程。