最近幾天,一篇“一個死在百度和部門醫院之手的年輕人”的新聞刷爆網絡,又一次將百度的醫療競價排名推到了風口浪尖。
大數據是新出現的事物,作為一門深刻洞察社會規律的新工具和手段,本身無所謂對與錯,好與壞,其實全賴于使用者。在這個大數據普及和大發展的新時代,筆者認為我們不僅需要關注大數據技術和商業,更應該讓大數據擁有正直的品格,同時以科學的態度去處理它,大數據作為人類發展的一個趨勢,我們已經不能僅停留在以前玩和看的心態上去對待它,因為它在帶來規模價值的同時,也具有了很大的消極或負面作用,玩的心態已經不可取。
這里,筆者談四點看法:
一、大數據造成了新的互聯網特權
互聯網解決了基本連接的問題,它讓人與人之間的溝通變得毫無障礙,這個世界也變得越來越扁平,我們現在可以輕易的接觸到大量的信息,信息不對稱的影響越來越小,比如,我們已經很容易從網上獲得足夠的信息,來駁斥一些所謂的偽專家。
但當前獲取的自由信息,僅僅是表面層次的,它并不是人類的終極目標,事實上,信息如何分析產生的過程我們并不清楚,大數據時代到來后,大量的信息基于大數據分析而來,未來我們實際是依賴于大數據分析創造的新的互聯網世界而存活,大數據想讓你看到怎樣的世界,你就只能看到怎樣的世界,特別在數據“寡頭”出現后,比如在搜索的時候,搜素引擎想讓你看什么就只能看什么,電商網站想讓你買什么就會給你看什么,真實的情況如何,只有數據運營者才真正知道,這是比較可怕的,前面的案例一定程度已經說明,事實上,你沒有選擇,在互聯網時代,我們好不容易有了更多選擇的機會,但一旦出現大數據壟斷,未來它卻可能讓你只有1個選項,這是新的知識壟斷。
工業時代產生了企業寡頭,它侵占了大量的資源,肆意操作市場,大數據時代,是否會產生大數據寡頭?黑客帝國大家都看過,這種更深層次的知識壟斷何嘗不是一種表現形式。
二、大數據還原世界的過程不太透明
“ 男人比女人孝順”這類所謂大數據分析的結論,筆者找遍了網絡,沒有機構可以監管,沒有任何關于其分析過程的說明,包括從哪個具體數據源,具體是哪些關鍵字,每個關鍵字的數據量是多少?是否取得足夠隨機?所用的算法或規則是什么?是否被認為剔除或加工過?當前大數據的信息發布游離在任何體系外,沒法去證明分析的過程是科學的還是錯誤的,沒人為這個信息的準確性進行負責或解釋,但如果的確是錯誤的結論,其影響的惡劣程度,有時卻并不比虛假廣告輕。
這種信息不透明,缺乏監管的行為,特別容易被一些無知媒體或無良企業用來獲取噱頭或博取眼球。
前段時間今日頭條和艾瑞咨詢關于統計數據的爭執一定程度說明了這一點,要不是今日頭條創始人兼CEO張一鳴炮轟艾瑞數據提供的報告內容失實,有誰會質疑這個數據而為自己維權,那對于廣大網民,對于一條誤導的大數據分析結論,誰該為其負責?
三、大數據的使用有時缺乏基本的科學方法
在大數據時代,傳統的統計學和概率論沒有因為大數據的大而失去意義,雖然,基于大數據的全面性可以一定程度上減少對于樣本統計的依賴,但從實踐的角度看,所謂大數據全面性在一定程度上是假命題,統計學作為一門數據科學,其理論在新的大數據時代將發揮出更大的作用。我們使用大數據,正確的方法始終是第一位,數據才是第二位,用錯了方法再多的數據也沒有價值,當下,一個企業要用好大數據,首先要有科學的思想,這樣你的數據運營才有價值,這是不會變的。
再來談談“男人比女人孝順”這個話題,起碼它犯了三個錯誤:
1、問題與結論不一致
按照過程的描述和百度的數據,媒體其實能夠給出的回答僅僅是“30多歲的男人比女人在春節期間表現得更孝順”,無法推斷出“男人比女人更孝順”這個規律,將一些所謂數據分析的結論隨便擴大是數據分析中常犯的毛病,比如30多歲的男人能代表全體男人?20歲的大學生調研一下是否就不是這個結論?
2、缺乏統計學的常識
違背了統計學中最基本的原則,比對的樣本的選擇要隨機,不能有傾向性,也就是樣本要公平,大家都知道,當前實際上由于中國的傳統等因素,男人和女人在過年回家上的很多行為并非隨機,很多行為體現的并非“真心”,甚至是“假”的數據,我們期望基于假數據得出真心的結論,這是可笑的事情,但在數據領域,太多的案例體現了這種“假數據,真分析”的行為,比如移動公司通過促銷給你贈送了10G流量,被贈送流量的用戶與真實自己訂購10G用戶性質是完全不同的,一個是被動,一個是主動,特別是后續你還想通過訂購10G流量的用戶去預測未來的潛在用戶,那被你贈送流量的用戶就是假數據,如果你還堅持用這些數據去做預測,就是“假數據,真分析”。
3、缺乏客觀的業務解讀
任何數據分析的結果,都需要懂業務的人去解答其體現的規律和價值,我不知道關于孝順的分析數據結果出來后,是誰負責去解答業務上的含義,起碼,當前的解讀帶有較大的功利主義色彩,這不是客觀的分析師應該擁有的品格,有常識的人都知道這個結論會很片面,解讀的人會不知道嗎?
下面給出一個對比的案例,數據是門嚴謹的科學,大數據不是不講任何規矩的亂說:
在政府有關部門大力支持與北京美蘭德信息集團公司(原國家統計局信息中心)實施入戶訪談的積極配合下,北京大學老齡健康與家庭研究中心/中國經濟研究中心對全國22省、市隨機抽取的一半縣(市)合計近6萬老年人/次,分別在1998、2000、2002、2005年進行了“中國老年健康長壽影響因素跟蹤調查研究”。其中一項研究對“養育女兒在晚年所得回報是否比兒子差?”的問題給出了以下幾方面的科學答案。
一、農村與城鎮老人(包括高齡與中低齡老人)的成年女兒的孝敬父母觀念指數平均比成年兒子分別高出35%與18%。80歲以上高齡老人與65-79歲中低齡老人的成年女兒的孝敬父母觀念指數比成年兒子分別高出29%與18%。其中孝敬父母觀念指數是根據4364位老人中每人隨機抽取一位35歲以上成年子女,共4364位成年子女對9個關于成年子女是否應該及如何對老年父母盡子女孝敬之責陳述的評估得分而構建的綜合指數(最高分45分,最低分9分)。
二、成年女兒與老年父母的情感關系顯著優于兒子,女優于兒差異高達28-29%。
三、主要照料者為女兒/女婿的高齡與中低齡老年人對日常生活(包括生病時)所獲照料的滿意度比主要照料者為兒子/兒媳的高齡與中低齡老年人分別高出45%與13%。
四、農村與城鎮平時與女兒/女婿交談最多的老人三年后認知能力顯著下降的風險分別比農村與城鎮平時與兒子/兒媳交談最多的老人低33%與16%。
五、農村與城鎮只有女兒的老人七年(1998-2005)觀測期內死亡風險分別比只有兒子的老人低25%與10%;與只有兒子相比,只有女兒的老年父母死亡率較低的優勢在高齡老人中(18%)比中低齡老人(6%)更為顯著。農村與城鎮只有女兒的老人七年觀測期內死亡風險分別比既有兒子又有女兒的老人低25%與13%。
以上五方面的調研分析結果都是在控制其他相關因素前提下運用先進的多元統計分析方法與大樣本數據得到的。通俗地講,以上闡述的養育女兒與養育兒子在老年所得回報差異是指在年齡、性別、城鄉居住地類型、民族、受教育程度、婚姻狀況、現有子女數與子女鄰近程度、煙酒與鍛煉習慣等人口、社會、經濟狀況基本相同的老人們之間的比較;成年女兒與兒子孝敬父母觀念及其與老年父母的情感差異也是指在年齡、城鄉居住地類型、民族、受教育程度、婚姻狀況等基本相同的成年女兒們與兒子們之間的比較,是經過多元統計理論與模型嚴格檢驗的科學結果。
四、正直是持久運營大數據的前提
很多人都在談大數據的開采挖掘極其巨大的商業前景,在道德層面更多的強調的可能是個人隱私的侵犯,但實際上,正直的品格也許更為重要,在一個正直的人手里,個人隱私數據可以得到有效的保護,即使他擁有你的數據,也不會作惡,所謂“舉頭三尺有神明”,但正直的品格對于大數據的意義還遠遠不限于此,有時候,不正直的大數據行為造成的傷害遠大于隱私的侵犯,影響企業的基業長青。
從百度的醫療貼吧事件到現在的搜索競價排名,其反應了很多的問題,但這個問題肯定不是技術問題,大家先看看Google的搜索排名算法, 這是眾所周知的,搜索算法其實沒有什么更多的秘密:
(1) 對網頁質量的度量:主要依賴于pagerank算法,即鏈接到該網頁的數量認為是主要的質量排名依據
(2) 網頁和搜索關鍵字的相關性:主要依賴于TF-IDF算法,也就是關鍵詞在文本中出現的詞頻及關鍵詞的逆文本頻率指數,前面的詞頻好理解,但逆文本頻率指數其實是一個權重,通常的理解就是這個關鍵詞越通用,權重越小,關鍵詞越少見,權重越大,因此,輸入關鍵詞組合,每個關鍵詞的搜索權重是不一樣的
(3) 網頁權威性算法:由于當前很多查到的信息雖然多,但不權威,因此會通過網頁文本中的提及等專業關鍵詞來進行主題網站的優化搜索
這個算法相信大多數搜索引擎都會參考或使用,國內的搜索企業也毫不例外,因此說某搜索引擎的能力有差距導致搜索的問題,這個其實是站不住腳的。
事實上,大數據由于其較高的門檻,造成了新的信息層面的不對稱,在缺乏足夠監管的前提下,在相關法規有漏洞的情況下,任何從事大數據的企業或個人,更加應該自律,秉承正直的品格。現在大數據的很多問題暴露的其實是商業利益和道德的博弈問題,在一切向錢看的市場下,給出用戶需要的搜索結果和搜素引擎希望給你的搜索結果之間,往往會選擇前者,但正如我以前撰文所說的,大數據要運營好,客戶為第一位,這是企業做百年老店的基礎,但要運營好客戶是一件持久的事情,錢也來得遠沒那么容易。
當然,幾次事故可能不會對某些企業當前帶來實質性影響,但怒氣總是一點點積累起來的,該還的時候,總是要還的。
結語
因為最近在網上接連看到跟大數據相關的問題發生,筆者覺得在當下,探討下如何以科學的精神使用大數據、如果用正直的品格去運營大數據、如何讓大數據分析過程變得更為透明,是件有意義的事情,當然,我也沒法給出很好的解決方法,但起碼政府應建立起碼的大數據監管機制,同時借鑒下國外GOOGLE等的經驗做法,是有利于問題的解決的。