大數據沒有唯一定義,但有兩處定義得到普遍承認:來自Gartner和來自Mckinsey的定義。大數據兩處定義隱含兩個關鍵特征:“超出常用典型數據庫或軟硬件環境”,以及“需要處理這些數據”。
“擁有大量數據”并非大數據的精髓,只有“需要處理數據”、“超出常用軟硬件環境并需要處理(例如分布式處理和列式存儲)”的大量數據,才稱為大數據。這兩個關鍵特征容易被投資者忽視。大數據產業鏈可分為硬件平臺、軟件平臺、分析平臺、行業應用、輔助應用五大環節。視頻處理、語音處理、各行業數據的應用是A股熱議的“大數據”公司,但不嚴格符合“超出常用軟硬件環境”或“需要處理數據”的大數據定義。
網絡安全和運維也是A股熱議的“大數據”公司,但不符合“需要處理數據”的定義。它們并非大數據產業鏈的重要環節。
國外廠商發展大數據即符合兩個定義,也各有裨益。Google在大數據中處于技術先導的地位,它發展大數據在于領先技術和挖掘商業機會。IBM發展大數據提升數據分析收入,它預測到2015年大數據分析方面的收入將有望達到160億美元。SAP在大數據領域的努力體現在推出HANA和整合Sybase產品線,農夫山泉上線HANA的案例印證了SAP在該領域的需求。Teradata是數據倉庫及數據分析軟件的領導者。它發展大數據的意義在于推銷數據倉庫和數據分析解決方案。發展大數據既可以保持EMC的技術領先,也提升存儲系統和數據處理系統的銷量,因而EMC極力推崇大數據。
國內與大數據相關的公司從事數據存儲、數據挖掘、財務數據處理、數據平臺、視頻數據處理、網絡安全、運維等業務。存儲廠商機會來自是否能拓展數據處理能力。國內數據平臺廠商的大數據業務占比低。國內行業應用和財務軟件公司只擁有大量數據。國內視頻數據不是大數據。國內網絡安全和數據運維與大數據相關性低。國內的大數據公司需要培育。