發源地大數據(Finndy)是國內首家基于自研SaaS2.0云采集引擎的大數據交易平臺,支持海量數據的分布式采集、計算及處理,以技術驅動數據交易。
科學分析、行業研究、內容擴充、運營啟動,Finndy平臺集合了全行業脫敏數據,滿足企業對數據分析、數據運營及精準營銷等方面的需求。
什么是大數據,大數據有什么用,為什么凱文凱利說數據是必然,馬云說數據是未來的一切的來源?
世界每天都在變,新的概念和名詞不斷涌現。
對有些人來說,大數據早被說爛,已經是過時的風口;
對有些人來說,大數據似懂非懂,聽起來很“高大上”;
這篇文章為后一種人所寫,如果你對大數據也似懂非懂,讀完這篇你就可以搞懂它。
/01/
什么是大數據
關于大數據的概念,有諸多版本,如同文化、精神這類詞,沒有統一定義。這里不是寫論文,只引用兩個版本:
1個來自維基百科:大數據是指一些使用目前現有數據庫管理工具或傳統數據處理應用很難處理的大型而復雜的數據集。
1個來自百度百科:大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
維基百科說了大數據大、難處理,復雜、數據集,百度百科在此基礎上強調它是一種信息資產。
兩個概念共同昭示了大數據的主要特點:數量大、種類多、復雜、難處理、價值大。
那大數據是誰創造呢?
籠統說:是所有人的所有行為。
它不是今天,或者電腦誕生、互聯網誕生后才有,歷史上也有,只是那個時候沒這個概念,古人行軍打仗,商品貿易流通,城市興起衰落無不是在生產大數據,利用大數據。
你今天早上吃什么,出門選擇什么交通工具,一個行為構成一個數據。
無數個你集結一起就是大數據,我們所有人的交易行為集結一起,就是消費大數據,我們所有人出行,就是出行大數據,我們娛樂消遣,就是娛樂大數據……
所以大數據不只是excel表格里的一串字符,從構成元素上看,它包含:文字、圖片、視頻、音頻、交易記錄、生產信息、物聯網信息……
于我而言,大數據是歷史,是信息,是記錄,記錄我們所做過的一切。
/02/
大數據有何用
大數據有什么用,為什么馬云說,數據不僅是能源,是血液,是未來所有的一切的創新和來源?
其實大數據本身是沒有任何價值。
比如大數據告訴你每天有10000個人,固定從A移動到B點。這條訊息對你可能沒有任何價值。
但如果摩拜知道了,它可以選擇在A點和B點分別投放不同數量的車,獲得用戶增長。
如果廣告商知道了,它可以在A點和B點搭建N個廣告展示窗口,獲得廣告費,而廣告商背后的廣告主也能因此得利。
……
(當然你也可以選擇在A點或B點開一個奶茶店。)
因為大數據記錄所有,它會告訴別人,人們的喜好,消費習慣,選擇偏好、工作習慣……
企業可以從中覓出商機,更好解決人們需要,從而獲得利潤。
而最終獲益的是每一個人,因為我們的需要得到了更好滿足。
就目前來看,企業會更直接從大數據中獲利。
大數據的價值,可以籠統歸為兩點:
大數據為人服務,為企業和個人提供決策參考,讓人少犯錯,更聰明。這方面主要體現在精準營銷、用戶需求、市場拓展、趨勢預測、資源配置、產品升級……
大數據為機器服務。大數據可以訓練機器設備、人工智能,讓機器更聰明。這方面主要體現在物聯設備、人工智能訓練、搜索引擎、信息分發平臺的推送機制等,都是基于大數據之上的。
關于第2點,舉1個例子:谷歌智能機器人阿爾法狗之所以能橫掃當代圍棋高手,在于它未出戰之前,已經和歷史上的所有名家學習對戰過,并反復與自己對戰,不斷超越自己,所以才戰無不勝。
/03/
大數據的分類
大數據大體可以分兩類。
開放數據。開放數據即所有人可見的公開數據。包含但不局限以下:
網站數據;
APP數據;
大眾媒介數據,如電視、報紙、電臺、書等;
……
內部數據。內部數據即某些特定機構、企業擁有數據。包含但不局限以下:
政府數據,如征信、戶籍、犯罪記錄等;
企業數據,如阿里巴巴的消費數據,騰訊的社交數據,滴滴的出行數據等;
機構數據,如第三方咨詢機構的調查數據。
終端數據,如小米智能手環搜集你的健康數據。
……
兩者的區別在于,開放數據體量大,比較雜亂,目前使用率低,會使用的企業和機構較少,需要挖掘,但在未來它必定是主流數據來源,隨著數據積累,數據價值和應用率會更高。
內部數據則反過來,體量相對會少,數據相對集中,目前應用更廣,但對普通企業/人來說,獲取難度比較高。
/04/
大數據如何獲取
如果企業、機構或者個人想要獲取大數據,該怎么獲取呢?
1.購買。
購買分兩種,一種是直接向數據擁有者購買。一些公司或個人擁有一些數據,他們會出售數據變現(相對少);
另一種方式是上數據交易平臺購買數據,比如上發源地大數據交易平臺,用戶可以直接購買數據,也可以發布數據需求,定制數據,從開發者或數據供應商獲取數據。
2.采集。
采集數據要看采集什么數據。如果要采集開放數據,方式也是兩種,如果懂技術,可以自己寫代碼采;如果不懂技術,技術小白,可以用數據采集工具采,比如Finndy+云采集引擎。
而如果要采集內部數據的話,一般說來企業內部都有自己的數據采集軟件和方式,比如工業設備會通過傳感器記錄數據,一些企業會人工記錄采集數據。
3.自造。
比如阿里巴巴、騰訊、百度這些互聯網巨頭公司,從某種維度上來說,他們也是數據公司,并且擁有自造大數據的能力,如果你的企業能切中某個社會大需求,擁有海量用戶和高使用頻次,成為巨頭,你也可以自造大數據。
/05/
大數據如何應用
大數據怎么用?
這里只講流程和邏輯,不切具體行業和場景。
不管你是用大數據去服務人,幫助你做決策,還是用大數據去訓練你的機器,算法,一般都要四步驟。
數據采集。
數據采集的方法上面已經說了,這里要說的是,數據采集是數據應用的基礎,數據源非常重要,如果數據源錯了,后面的所有結果都是錯,采集來的數據是否全,是否清洗,是否合法,是否及時,都是數據可靠性和可用性的判斷維度。
數據建模。
數據采集上來了,需要對數據進行整理,按照一些規則和維度進行組織,讓人和機器都能看懂。
數據分析。
數據該如何分析,分析哪些維度,怎么從過去預測未來,這是個大學問,也是各家各說,無法一一展開,在此不贅述。
數據應用。
分析完就是應用,驗證分析結果。這是一個循環過程,通常需要A/B測試,反復驗證優化。
作者:發源地大數據鏈接:http://www.jianshu.com/p/e421b9cbe376
來源:簡書