一朝天子一朝臣,一個(gè)時(shí)代一尊神
過去的幾年里,結(jié)構(gòu)化數(shù)據(jù)一直是企業(yè)用戶的首選,由于其以固定字段駐留在一個(gè)記錄或文件內(nèi),通常是被人為組織整理過,具有處理分析簡單、存儲(chǔ)便利等優(yōu)勢,而大范圍的被企業(yè)用戶所利用分析。
非結(jié)構(gòu)化數(shù)據(jù)是相對(duì)結(jié)構(gòu)化數(shù)據(jù)而言概念,指沒有被預(yù)先定義數(shù)據(jù)模型或不是以已定義的方式進(jìn)行組織的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)不必以某種方式組織,而是直接按照學(xué)科方式進(jìn)行分類,主要包括有文本、圖像、音頻和視頻等不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。
乍看之下,非結(jié)構(gòu)化數(shù)據(jù)并沒有奪權(quán)的理由,但是,大數(shù)據(jù)時(shí)代的到來讓結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢不再。企業(yè)用戶云端化導(dǎo)致創(chuàng)造數(shù)據(jù)的主體由企業(yè)轉(zhuǎn)向個(gè)體,而數(shù)據(jù)結(jié)構(gòu)也就由原來的企業(yè)所整理的結(jié)構(gòu)化數(shù)據(jù)為主變?yōu)橛蓚€(gè)體產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)為主;另外信息化的普及,使得數(shù)字辦公越來越常態(tài)化,辦公所產(chǎn)生的文本、報(bào)表等非結(jié)構(gòu)化數(shù)據(jù)也逐步增加,所占新產(chǎn)生數(shù)據(jù)比例甚至超過90%。
此外,非結(jié)構(gòu)化數(shù)據(jù)的處理難題逐漸被攻克,自身的靈活優(yōu)勢進(jìn)一步被體現(xiàn)。相比已經(jīng)被處理過的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)更為自由靈活,來源廣闊,貼近客戶,商業(yè)價(jià)值更大。其分析結(jié)果主要是數(shù)據(jù)驅(qū)動(dòng)(data-Driven)的語義分析加輿情分析,更具科學(xué)性,內(nèi)涵更豐富,更具有前瞻性,同時(shí)可以對(duì)用戶的情緒做出分析評(píng)價(jià),對(duì)企業(yè)指導(dǎo)作用更具真實(shí)性。這些性質(zhì)對(duì)于結(jié)構(gòu)化數(shù)據(jù)來講都是渴望而不可及的。
推動(dòng)技術(shù)改進(jìn),提升商業(yè)價(jià)值
非結(jié)構(gòu)化數(shù)據(jù)比較結(jié)構(gòu)化數(shù)據(jù)而言,雖然其分析難度較大,但巨大的商業(yè)價(jià)值卻誘使企業(yè)不得不進(jìn)行大量的技術(shù)改革,而這些改革都開始在各個(gè)領(lǐng)域發(fā)揮出自身的優(yōu)勢。
在IT行業(yè)一直有句至理名言,“Garbage In, Garbage Out”。由于數(shù)量極大,而且格式繁雜,存儲(chǔ)分析困難等原因的存在,很多的廠商都對(duì)非結(jié)構(gòu)化數(shù)據(jù)望而卻步。但是不僅對(duì)信息繁雜混亂的非結(jié)構(gòu)化數(shù)據(jù)如此,甚至結(jié)構(gòu)化屬于也存在這個(gè)問題。我國如今很多企業(yè)的數(shù)據(jù)分析都還停留于簡單分析的層次,對(duì)于深度的數(shù)據(jù)挖掘并沒有表現(xiàn)出太大興趣。但是由于近年來非結(jié)構(gòu)化數(shù)據(jù)的崛起,結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢不復(fù)存在,企業(yè)技術(shù)改革被推到了不改即亡的地步,一系列更適應(yīng)時(shí)代的技術(shù)便應(yīng)運(yùn)而生。
非結(jié)構(gòu)化數(shù)據(jù)價(jià)值更高,分析技術(shù)的變革首先開始進(jìn)行。例如The Taste Signals Platform等強(qiáng)大的數(shù)據(jù)分析平臺(tái)進(jìn)入市場,其分析非結(jié)構(gòu)化數(shù)據(jù)所得到的分析結(jié)果信息量巨大,對(duì)企業(yè)用戶的各個(gè)層面改進(jìn)均具有良好的指導(dǎo)效果;與此同時(shí),工具性能的提升帶來的是數(shù)據(jù)分析師的生產(chǎn)力提升,人和工具的結(jié)合可以實(shí)現(xiàn)價(jià)值的最大化。這樣的良性循環(huán)下,結(jié)構(gòu)化數(shù)據(jù)分析所帶來的價(jià)值優(yōu)勢蕩然無存。
其次變革的領(lǐng)域便在于存儲(chǔ)。由于數(shù)據(jù)存儲(chǔ)空間成本大幅降低,“必須壓縮非結(jié)構(gòu)化數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù)”的落后的存儲(chǔ)方式不再是非結(jié)構(gòu)化數(shù)據(jù)的發(fā)展障礙。但是非結(jié)構(gòu)化數(shù)據(jù)對(duì)倉儲(chǔ)工具依然有著較高的要求,因此諸多類型的倉儲(chǔ)工具如NoSQL等應(yīng)運(yùn)而生。這些倉儲(chǔ)工具利用其強(qiáng)大的功能解決了困擾企業(yè)許久的大規(guī)模數(shù)據(jù)集合多重?cái)?shù)據(jù)種類帶來的挑戰(zhàn)。此外,非結(jié)構(gòu)化數(shù)據(jù)的這一特質(zhì)也對(duì)數(shù)據(jù)庫的云端化有著極大的推進(jìn)作用。
再者,非結(jié)構(gòu)化數(shù)據(jù)對(duì)KPI的科學(xué)化有著良好的幫助。以往KPI績效考核更多的依賴于企業(yè)決策者的經(jīng)驗(yàn),這樣的做法很可能導(dǎo)致企業(yè)停步不前。但借由非結(jié)構(gòu)化數(shù)據(jù)驅(qū)動(dòng)KPI的實(shí)時(shí)生成,通過機(jī)器學(xué)習(xí)的數(shù)據(jù)平臺(tái)工具得出的數(shù)據(jù)挖掘結(jié)果,對(duì)公司產(chǎn)品改進(jìn)做出的指導(dǎo)會(huì)更符合基層用戶的使用習(xí)慣。
由此三方面可以看出,非結(jié)構(gòu)化數(shù)據(jù)的表現(xiàn)會(huì)更為強(qiáng)勢,不僅促進(jìn)了大數(shù)據(jù)行業(yè)技術(shù)的更新,其對(duì)于企業(yè)的商業(yè)價(jià)值也遠(yuǎn)超結(jié)構(gòu)化數(shù)據(jù)。
靈活而多變,超越而主宰
如果僅有以上兩點(diǎn)并不能讓非結(jié)構(gòu)化數(shù)據(jù)奪權(quán)的話,那么靈活多變的特點(diǎn)則是其登基最重量級(jí)的權(quán)杖。
在以往分析非結(jié)構(gòu)化數(shù)據(jù)時(shí),通常會(huì)先將全部數(shù)據(jù)統(tǒng)一格式進(jìn)行結(jié)構(gòu)化,然后才進(jìn)行分析。這樣做最大的問題在于統(tǒng)一數(shù)據(jù)結(jié)構(gòu)降低了數(shù)據(jù)的靈活性,并且拖慢了數(shù)據(jù)分析流程。而同樣的問題也出現(xiàn)在了結(jié)構(gòu)化數(shù)據(jù)身上,盡管結(jié)構(gòu)化數(shù)據(jù)看似分析速度較快,不需要進(jìn)行其他的結(jié)構(gòu)變更,但是結(jié)構(gòu)化數(shù)據(jù)最大的問題便在于其結(jié)構(gòu)太難改變,固定的數(shù)據(jù)結(jié)構(gòu)一旦需要進(jìn)行其他層面的分析,則會(huì)消耗大量的時(shí)間精力,甚至影響重新收集。這種不夠靈活的模式已經(jīng)不再適應(yīng)當(dāng)今的形式。
而相比之下,非結(jié)構(gòu)化數(shù)據(jù)由于數(shù)據(jù)源直接收集,經(jīng)過的處理較少,因此在進(jìn)行不同類型的數(shù)據(jù)分析時(shí),非結(jié)構(gòu)化數(shù)據(jù)可以得到的信息也就最貼近原始數(shù)據(jù)。在保持其原有格式的情況下,數(shù)據(jù)靈活多變的優(yōu)勢更為突出,可重復(fù)利用率提升。如果需要其他層面的建模分析時(shí),也可以直接進(jìn)行分析,不僅提升了企業(yè)效率,也保持了數(shù)據(jù)的原