精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

批評文:大數據,大安利

責任編輯:editor005

2014-10-09 13:42:06

摘自:36大數據

分層抽樣的情況下,后期統計運算都必須一個權重w,如圖2,每層人數M和n都暫時不重要,權重是和phi成反比的:phi是該層被選擇的概率。大數據的問題是它只能收集到權重低的數據

最近在社會上刮起一陣大數據的不正之風,本科生也敢拿著幾個G的硬盤聲稱這些數據能解決某某疑難問題,讓人聯想起存滿硬盤黃片的處男說這家伙老爽了。

雖然在社會科學領域流行程度遠不及計算機和工程,谷歌學術我用關鍵字搜索一下,大數據和社會科學為內容的文章2011年是194個,2012年 635,2013年1820,這兩年算是以1.2左右的指數增長了吧。一個話題一年一兩千篇文章并不算多,相比之下”social stratification”2014年還沒過完就已經16800多篇了,但是大數據這個話題在網上傳的很神,尤其是我國這個每個人什么都懂一點但又懂得不精的土地上,有種安利好產品準備取代傳統營銷的感覺。

對碼農來說如獲至寶,世界上的數據太多,本來被認為是煤干渣的東西現在好像也可以當鉆石了,煤窯工人揮舞鋤頭高喊:萬歲data mining!不過我認為這也沒錯,隨著技術的進步,苞米也能替代汽油,煤干渣也可以做成首飾。大數據對工程學是很好的,但是礦工拿煤干渣當鉆石推銷到社會科學,說這玩意可以代替統計學和抽樣技術,我就不樂意了。物理學家對大數據也頗有微詞,不過我不懂物理就不說了。

國外對大數據在其他領域濫用已經有了很多批評,我總結一下主要:

1,無意義的顯著性:沒有理論的大數據是皮毛,只看到顯著相關性,但不經檢驗,沒有理論,這樣的相關是沒有意義的,或許是虛假。關鍵是:大數據的data point太多,在計算上找到兩個矢量的顯著關系極其容易,但正是因為數據量大,控制虛假關系反而更難,這是一個兩難。我有一篇文章投出去,匿名評審說:樣本很大,當然能找到顯著相關,但是看不出意義。

2,采樣方法問題:統計學家方凱撒總結了一個現象,谷歌、facebook等網絡收集的數據,往往不具有同質性,是在不同的時間用不同的資源收集,隨后把整個數據合并起來,結果大數據內部許多部分的數據根本不是用同樣的方法收集的,統計抽樣的基本假設都被推翻了。而且網絡數據和線下數據的內容不一致,比如華爾街郵報的電子版和紙版就不一樣,而且用戶可以自定義內容。

3,機器語言不穩定:谷歌最開始用關鍵字預測感冒流行地區,開始說比疾控中心預測的還準,但后來越來越不準。有人認為這是谷歌的搜索算法在不停地改進,所以自動收集數據不穩定了。另外機器語言一旦被誤導會越錯越離譜,比如谷歌翻譯是根據真實的文章總結的,但是有些網絡的“真實”翻譯其實是谷歌翻的,于是谷歌會把自己的翻譯基于這些 “真實”文章上。

以上歸根結底是人和機器的矛盾:數據必須讓人用理論來指導、收集,否則會出現謬誤。這些都是可以避免或改進的,但這些原因足以讓大數據在短期之內難以在社會科學領域立足。除此之外,我自己有一個想法,基于一個假設,認為大數據是不可能在人類行為領域立足的,研究文本或死物的歷史學、語言學或許可以,但是社會學、犯罪學、人類學這三個恐怕很難。

學抽樣的都明白,只要確定了圖1中想要的準確度 Z(a/2)^2,方差S,回答率r,基本就可以求出從一個人群中應該抽多少個樣本才能有代表性,而人群總量N的影響最后就不大了。在95%置信區間的情況下,一個小鎮4000人,一個城市十萬人,從小鎮抽360人可以達到代表性,從那個城市抽390人照樣可以有代表性,不可能因為后者多了幾百倍就要多抽幾百倍的人。所以大數據首先就沒有必要了,在滿足準確性的時候,小樣本和大數據的效果沒有區別;而不滿足準確性的時候,大數據的誤差只會更大。

這只是最基本的情況,實際抽樣中往往需要分層,二龍湖有十塊苞米地,有些面積大有些小,有些里面有非法性交易,要找那塊苞米地里有性交易,就得把十塊苞米地分成兩類:離人煙近的,離人煙遠的,賦予后者的抽樣概率要大。這是所謂分層抽樣,現實中,幾乎所有大規模抽樣都是分層抽樣的變種。

分層抽樣的情況下,后期統計運算都必須一個權重w,如圖2,每層人數M和n都暫時不重要,權重是和phi成反比的:phi是該層被選擇的概率。一個分層的權重高,在分析中就不可忽視。大數據的問題是它只能收集到權重低的數據:

我們知道帕累托分布,應用很廣,從小姐接客分布到富豪財產分布都可以用帕累托分布表示。另一種類似power distribution的Zipf曲線,P(r)=1/(r*Ln(R)),用來表示重要性和出現頻率:語言學中,一個詞日常使用頻率與它的排名成反比,chinkafir這個詞排第10000,它的出現概率就大概是1/10000。由于這個分布的廣泛性,我有一個基于權重的假設:因為抽樣概率越低的分層,的權重越高;所以越難被抽樣的人群,的統計重要性越高。現實中,最容易研究的對象往往最無聊,心理學經常上課找大學生做實驗,所以現在以大學生為樣本的文章很難發表了;而誰要在二龍湖跟浩哥混幾天,做出來的研究就算不很嚴密也依然重要。

這點才是我說大數據的第二個重要弱點,數據越大越不重要。一個人收集了一堆權重接近0的中產階級對暴力犯罪的態度,而另一人在Cicero和Latin Kings混了兩個月,你覺得誰的結論重要?不是說前者沒有意義,普通人群在分析時是必要的,但大數據基本只能接觸到一些數據,沒有抽樣技術的話永遠不具有代表性。就跟安利一樣,產品或許不錯,但是推銷方式往往太傻逼,想取代傳統還需努力。

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 连云港市| 鹿泉市| 南涧| 汉沽区| 云浮市| 遂宁市| 刚察县| 麻江县| 年辖:市辖区| 怀集县| 洪泽县| 肃北| 乌拉特中旗| 成安县| 工布江达县| 资溪县| 安陆市| 怀化市| 甘肃省| 平遥县| 五常市| 溧水县| 伊川县| 泰顺县| 莱芜市| 鄂托克前旗| 西宁市| 嘉黎县| 广安市| 咸宁市| 防城港市| 娄底市| 辉县市| 横山县| 潜山县| 通城县| 中山市| 黄梅县| 宁都县| 五河县| 红桥区|