1,大數據的運用-案例
CieloMar:CaRRot能不能例舉一個你們公司里大數據分析的例子,以及如何定價?
CaRRot:數據公司的實用案例: 我就說我最近做的這個吧,某個服裝快消品牌想了解中國的洗衣習慣,比如什么樣的面料會機洗,什么會手洗,什么要干洗。第一步就是采集信息,從新浪微博上采集近3年相關的微博(按相關關鍵字),第二步清洗數據與存儲,把沒用的信息顧慮掉,有用的進行分類存儲。第三步就是數據挖掘,按照數據挖掘的算法進行一些運算(比如這個場景比較適合關聯規則)來得出結果,至于這個結果是什么樣的,這個就要看你建立的模型的輸出了。最后一步是數據驗證了,就是驗證你模型的選的合不合適,模型里面的參數是否需要變化。但是目前我做的這個沒有合適的結果集來做驗證,所以我就略去了。。。 總結一下大致的步驟就是數據采集(data crawling)-》數據分類和存儲(data housing)-》數據挖掘(data mining)-》數據驗證(data verification)。關于定價問題,其實我感覺這個彈性很大,這個要看客戶了,如果是大客戶的話,肯定會要得多一些。
CieloMar:數據采集就是用微博關鍵詞?比如說這個案例里你們輸入的關鍵詞是什么?然后你們使用微博的數據,是公共資源還是跟微博買的數據?
CaRRot:數據采集就是用微博的關鍵詞,但是我們會用 nlp(自然語言處理)來做一些聯想,近義詞聯想.數據是新浪公共資源,和新浪做partner成本太高了。
CieloMar:比如說這個案例里,你們數據來源僅僅是微博嗎?
CaRRot:其實做多個數據源的不大好做,因為各個數據源之間的權重不太好把握,比如來自新浪和微信的消息哪個更重要一些?主要看客戶要求,客戶目前只要做微博的就做微博的。
CieloMar:多個數據源結果不一樣,是不是就意味著單一數據源結果不太準,也就導致大數據分析后的結果不準確?
CaRRot:這個不一定,這個要看你研究面向的群體了,比如想研究中國20-40這個年齡段的人,微博應該是最好的選擇。
2,大數據模型
Reinaldo :大數據的模型到底是個什么感覺啊?不太能想像。
CaRRot:大數據類型的線性是怎么樣的?正相關還是分散隨機的。最簡單的一個例子,比如預測用戶購買行為,用戶對此產品的互動率x(點擊,收藏,加入購物車),我們需要求出用戶購買該產品的概率y,那么我們可以定義y=ax,這個公式就是最簡單的模型,當然,這個模型不一定適用于這個場景,在具體場景中系數肯定不止a一個。
Reinaldo:所以說針對不同情況都有各自的一個模型是吧?其實就像一個數據的分析方法?
CaRRot:針對不同場景是會建立一個合適與該場景的模型,因地制宜。建模整個過程涵蓋了數據分析。從一開始的模型預測,到最后的結果驗證都需要。
3,大數據與金融
Wendy:本書最開我眼界的地方,有三個。一個是樣本=總體。經濟學專業在做研究時,都是以一部分數據為樣本來做的。隨著it 技術的發展,和數據采集方法的改善。樣本=總體應該能得到實現,現階段經濟計量研究方法也會受到沖擊。第二是只關注相關關系,而忽略因果。和Reinaldo的感受一樣,這個觀點很具有沖擊性。然而經濟學研究中,其實也是相關重要于因果的。經濟學研究很多是基于最小二乘法研究內生變量怎么隨外生變量變化,例如Y=aw+bz+ck,研究的是每單位w,z,k的變化怎樣引起y的變化。而只有一部分研究,研究的是因果關系,這時我們會引入格蘭杰因果模型進行研究,但這樣的研究是少數。第三,大數據對金融行業的沖擊。大數據是否能代替掉行業專家?在金融行業里就是行研員和基金經理。在整個金融行業,量化金融—利用金融模型選股,構建投資組合,防范風險是必然的趨勢。但是可以說沒有一家金融機構敢完全依賴量化這條路。美國股市的黑色星期五,就是過渡依賴量化工具產生的。量化vs行研。索羅斯vs巴菲特,基金經理是否能創造價值,現在依然是金融界的一個hot topic。
CieloMar:從經濟學角度闡述真好!不過最后兩句話幾個專業術語不太懂,格蘭杰因果模型?書中提過嗎?請解釋一下。
Wendy:格蘭杰因果模型,書中沒有,用以分析兩相關序列之間,是否因果,誰因誰果,或互為因果。
4,負面影響以及存在問題
CieloMar: Reinaldo,關于你寫的文章我有幾個問題:1,我認為大數據不會完全顛覆某個行業,新聞還是新聞,本質是不變的,只是行事方式變了。 2,我有個疑惑,過分依賴于數據,忽略思考因果關系,這是否會削弱我們的思考判斷能力,比如我們就直接看去哪兒網的價格曲線買便宜機票,不需要去思考為什么機票會便宜,比如動車的修建降低了票價等,慢慢地我們會過分依賴數據而不是思辨能力。再比如你提到的新聞行業,我們總是通過數據來拍版,挑選新聞,這樣新聞的質量慢慢降低,畢竟大部分人是“烏合之眾”,而這種降低已經在發生。
Reinaldo:我基本認同烏合之眾的說法,門戶網站的新聞排名已經反應出來:標題黨新聞最受寵、最吃香,這大概和人的天性有關,但并不意味著會讓嚴肅的報道消失。我說的顛覆行業,更多指傳統生產方式已經被改寫了,無力回天,但包括報紙在內的傳統媒體肯定會存在,類似廣播仍存在一樣,但不會占主流。而且,新聞消息的未來肯定不能再延用主編拍板的方式。至于內容低俗與否,我更傾向于用教育來引導認識,新聞媒體可以較少承擔教育的功能。我認同技術改變現有行業規則,至于在改變過程中的亂象,我認同楊導的說法,技術進步會把現有的問題逐步解決。
Ada:關于這個問題,推薦大家書籍《烏合之眾》。
Wendy:高科技的負面影響,推薦英劇Black Mirror(《黑鏡》),以及書籍《娛樂至死》。
CieloMar:大數據目前面臨的問題還有點補充:1大數據乃至說計算機行業發展得如此快,如何完善法律也是一個問題。 2網絡安全問題,大家對個人隱私只會越來越重視,如何保護好大家的隱私也是關注焦點。
Reinaldo:這個(網絡安全問題)在技術上,我覺得不難解決,關鍵是配套的法律、制度,其實我也很擔心大數據被政府利用變成了《1984》的無處不監控。
CieloMar:所以網絡安全也會很有市場,能否叫它大數據帶來的“周邊產品”?我覺得這樣的周邊市場還有很多,一旦某樣事物火了,一定會有很多周邊市場出現,所以大家忙著大數據時候,多關注周邊也是一條思路。
5,值得你思考的問題!
楊導:
1 大數據可能會顛覆我們的認識,思考的時候"怎么樣"比"為什么"更重要。
2 通過讀書之后,我覺得怎樣獲取數據和利用數據很重要,是一個應該注意的方面。
3 其實書里面舉的例子說亞馬遜推薦相關書籍是利用了大數據,但實際上它只提高了銷量,長期來看用戶的體驗并不好(個人認為,你們覺得呢),所以在利用大數據做推薦和營銷的時候,如何提高用戶體驗尤其重要。
4 目前來看,大數據更多的是用在商業領域,后期發展成熟我覺得它將非常可怕,這是一個隱患。如何防患這種隱患很重要。大家都愿意去做先賺錢的事情,但很少有人愿意做先預警危機的人。
5 還有一個印象深刻的就是"數據廢氣",利用大家都不在意的點做些文章。
6 這是我最想強調的一點,就是實踐,不要怕錯,我只想利用簡單的模型去印證我懷疑的東西。還有書中的說法,我希望通過實驗去看一下。有興趣的親們一起嘗試一下啊,然后我們互相交流感受。
原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13847.html