大數據對資本市場的吸引力方興未艾。
日前,位于美國硅谷的大數據智能關系管理公司RelateIQ再獲4000萬美元融資(新估值2.45億美元)。而在最近一年的時間里,全球大數據行業已有20多起千萬美元規模以上的融資案例,累計涉及投融資金額超過20億美元。
與以往融資的大數據公司主要處理結構數據不同,RelateIQ主要是通過實時分析公司業務中的電話、短信、郵件等非結構數據,為公司管理客戶、維護員工提供建議。
“現階段全球對大數據比較成熟的開發應用主要在于個人信息、交易紀錄等結構數據,這部分的價值顯而易見。RelatelQ的成功融資表明,文本、視頻、圖片和音樂等非結構數據的開發正在成為大數據的新藍海。”專注于企業級非結構大數據處理公司慧思拓CEO包啟挺表示。
占比八成以上
根據包啟挺介紹,對于企業CRM數據庫、網絡瀏覽軌跡等結構化、半結構化數據,由于相關的處理方法和計算模型比較成熟,已成功實現商用,例如應用比較普遍的電商網站推薦系統。
與之相比,躺在辦公室、互聯網各個角落的非結構化數據,像員工日常工作中產生的會議記錄、錄音或者電子郵件,以及潛在網絡客戶瀏覽的文本、發表的評論、曬出的圖片等等,卻因分布零散、分析困難,很少有大數據公司前往問津。
但這并不意味著這些非結構數據就沒有價值,或者比結構數據的價值要小。
相反,國外一家類似RelatelQ的非結構數據公司慧銳(VERINT)的一項調查顯示,有42%的企業管理者認為非結構化數據處理起來是一個很大的難題,同時93%的管理者認為這些非結構化數據對企業來說非常重要。
“非結構數據分布廣泛,獲取方便,這為價值挖掘提供了條件。比如,雖然淘寶的用戶數據是封閉的,用戶的評論和評價都是公開的,抓取之后,通過各種維度的重構和計算,同樣能提煉出對企業的產品設計、定價、營銷和售后等各環節有用的信息。”包啟挺說。
國際市場研究機構IDC的一份報告還顯示,結構化數據只是大數據的很小一部分,當前數字領域約1.8 萬億 GB 容量中,非結構數據占比在80%~90%之間,并且直到2020年都將以44倍的發展速度增長。
為大數據提供云計算服務的浪潮集團高級副總裁王恩東也指出,現在正處于行業內異構數據共享和價值釋放的階段,并在未來相當長的時間都會處在這個階段。“這個階段,會有大量的新技術和新產品涌現,無論是硬件還是軟件。對于產業鏈上下游的系統廠商、行業ISV來說,這都是難得的‘歷史新機遇’。”
大佬陸續搶灘
鑒于非結構化數據在商業價值上的廣闊空間,目前,全球范圍內傳統企業服務領域的大佬都在搶灘占位。
在國際市場上,代表性企業是以IBM為代表的國際咨詢公司和SAP等國際數據巨頭,它們致力幫助企業利用內部系統的非結構數據來改善內外部管理。國內市場方面,百度、阿里巴巴等為平型臺IT企業也在利用自身的數據資源,開始了對非結構化數據的初步開發,主要用于監測和改進自身的產品服務。
非結構數據的一塊重要領域,互聯網上的非結構化數據在企業中的應用,也吸引了部分本土公司的注意,慧聰研究(HCR)和拓爾思(TRS)就是其中的兩家。
公開資料顯示,HCR是規模最大的本土市場研究公司,近幾年頻繁傳出大動作;拓爾思則是中國最早的、最大的企業級搜索服務平臺,在政企輿情監測、中文非結構化數據分析技術開發等方面有多年的積累,2011年已在創業板上市。
2013年年底,兩家公司合資,成立了中國第一家專門針對非結構數據的企業級大數據處理公司,即是前面提到的慧思拓,由HCR副總裁包啟挺出任合資公司CEO。
“拓爾思是中國最早的企業搜索公司,在中國政府輿情監測市場處于領先地位,在企業級非結構化數據抓取分析方面具有豐富的積累。HCR的優勢在于,多年的企業服務經驗,可以將海量非結構數據分析結果融入到企業的具體需求中去。”包啟挺說。
把握需求是王道
“慧思拓成立以來,我們一直在思考,怎么才能利用互聯網大量的非結構數據創造商業價值。這里需要考慮兩個問題,企業對非結構數據的需求是什么,非結構化數據如何重構成產品。直到現在,總算有了大致的思路”包啟挺說。
在包啟挺看來,這是一個全新的市場,國外算是剛剛起步,國內基本上是空白,而且不能完全借鑒國外僅有經驗。因為國內外在文本、音頻及圖片等非結構化數據形態上存在天然區別,直接影響到后續的分解、重構過程,這恰恰是非結構大數據應用的最核心環節。
以文字為例,英語的語言結構相對簡單,無外乎“主謂賓定狀補”等六大部分,相對而言比較容易按照一定規則進行拆解和分析;而漢語就復雜的多,一個字多種詞性、多種語音、多種意思的比比皆是,必須通過復雜的組合和計算才能準確進行解析。
某知名大數據營銷公司高層表示,“大數據的開發就是分析和重構,非結構化數據分解困難還在其次,最為重要的是,如何將分解之后的數據結合企業的市場需求,重構成為滿足企業各種需求的信息產品,這也是目前最為困擾各大數據公司的地方。
目前,慧思拓在非結構化數據的相關產品已經展開試點,比如常見的客戶回訪,傳統打電話方式的費時費力,轉而通過抓取和分析網絡上大量有關該產品的評論、曬圖等非結構數據,將會對傳統調研結果形成非常有效的補充和印證。
“當然,非結構化數據在企業層面的應用,絕對不局限于對客戶回訪、輿情監測等傳統業務的改造,慧思拓還在嘗試圍繞海量非結構化數據為企業產品的生產、定價、售后等提供一整套全新的參考信息產品。”包啟挺說,具體產品還在研發階段,暫不方便透露。