大數據到底是什么?我們為什么需要大數據技術?
Mike Jude:從本質上來說,大數據就是曾經被稱為數據倉庫的邏輯延伸。顧名思義,大數據就是一個大型的數據倉庫,一般有一個能支持業務決策的業務重點。但是,它和傳統數據庫不同的是,大數據不用構建。
在典型的數據庫中,數據會被組織成標準的字段,并使用特定的密鑰索引。如果你熟悉Microsoft Access應用程序,那么你就能完全理解這個概念。比如,一個顧客記錄可以由姓氏、名字、地址和其它信息組成有通用標簽的字段。每個顧客記錄樣式都是相同的,這樣可以通過使用搜索關鍵詞來檢索,比如搜索姓氏。
現在,如果你想鏈接到這些客戶記錄需要怎么做?鏈接到客戶的圖片或者視頻呢?如果是鏈接到客戶的所有記錄呢?
將這么多不同的數據源互相映射,一般的數據庫還做不到。另外,需要鏈接的數據量是非常巨大的。這就產生了“大數據”的概念。大數據使用特殊的數據結構來組織和訪問巨大數量的數據,可能達到多個艾字節的范圍。一般情況下,這需要跨多個服務器和離散數據存儲進行并行計算,而小企業往往難以維持這種大數據的存儲庫。但是,大數據正逐漸成為云服務提供商能提供的一種服務,從而把大數據應用推向更多的公司。
但是,還有一個“大”問題,就是我們為什么需要大數據?答案就是相關性的價值。如果你能看到乍一看似乎沒什么關系的數據設置之間的關系,你會獲取很多重要信息。比如你想知道你的公司是不是容易被黑客利用。那么你需要跨多個應用程序和數據中心檢查無數條交易。這時如果沒有大數據技術和相關的分析技術,這幾乎是不可能完成的。
最終,隨著數據量的增長、業務的可用性和重要性的增加,大數據的定義可能會用來描述大多數數據庫應用。IT專業人士應該掌握大數據相關概念和術語,以免遇到困難。