亚洲精品免费在线视频,亚洲成人精品久久,亚洲国产成人久久综合一

大數據之“小”

責任編輯：editor005

作者：李子暘

2015-03-10 13:16:38

摘自：李子暘新浪博客

——拉姆斯菲爾德　　計算機和網絡技術的發展，讓人們搜集、分析數據的能力大增。雖然熟人借貸能夠利用那個最大的數據庫，可靠性很高，但世事無完美，熟人之間的違約、賴賬當然也會發生。

大數據

　　理論是灰色的，而生命之樹常青。——歌德

有已知的已知，有已知的未知，還有未知的未知。——拉姆斯菲爾德

計算機和網絡技術的發展，讓人們搜集、分析數據的能力大增。千百萬消費者的購買記錄、眾多企業的銷售情況、人們對某項商品的查詢數量、人們在各種場合有意無意表現出來的個人偏好……這些以前零散在各處，根本無法收集的數據，現在可以盡收囊中，一覽無余。數據量大大增加，范圍、種類也大為拓展。相比以前的數據量，這被稱為大數據。

掌握了大數據，進行深入分析，可以了解很多以前完全無從知曉的社會情況。對商業很有價值，可以幫助企業家準確把握消費者需求，生產出適銷對路的產品，并以盡可能小的營銷成本賣出去。

從這個角度來說，大數據技術有效地拓展了人們的能力，提高了生產效率和經營水平。但是，隨著大數據技術的發展，一些人產生了錯覺，以為這下終于可以全面掌控社會和市場了。有人甚至認為，一敗涂地的計劃經濟可以通過大數據技術起死回生。在他們看來，計劃經濟的失敗只是個技術問題。過去的人們沒有大數據技術。如果有大數據技術，計劃經濟完全可行。

這就大錯特錯了!

相對于IT革命以前的數據量，現在的大數據技術確實很“大”，但相對于他們設想的全面、準確地掌控社會和市場所需要的信息量，大數據實在只能被稱為“小”——小得很。

哈耶克論證計劃經濟必然失敗，市場經濟才是唯一可行之道的核心原理就在于：人類處于永恒的“無知”狀態。

看上去，人類知道很多。圖書館中堆積如山的各種書，不都是人類掌握的知識嗎?無數個硬盤、光盤、磁帶中存儲的，不都是數據和知識嗎?這些知識總量之大，簡直如恒河沙數、難以計量。既然如此，為何還要說人類必然地、永恒地處于“無知”狀態呢?

這其中的道理是：人們實際應用的知識，要遠遠多于他們能夠理解、表達、記錄的知識。大量被人們每時每刻應用的知識，并不為人的理性所感所知。這些知識固然存在，但對人類理性來說，卻處于“無知”的領域。

鳥類自由自在地天空翱翔，但它們對其始終都在運用的空氣動力學一無所知。獵豹追逐羚羊時，奔跑速度驚人、姿態優美。豹羊雙方都高效運用著自身的骨骼、神經和肌肉。但無論是獵豹，還是羚羊，都對生物力學和解剖學一竅不通。

這種一無所知和一竅不通，絲毫也沒有妨礙生物圈的生生不息。演化而成的生物圈，并不需要身處其中的動物、植物在理性上掌握生物學知識。動物、植物所具有的，是演化而成的性狀和生存技能。換句話說，它們會使用那些知識，但它們絲毫也不理解那些知識。它們甚至連起碼的理性也不具備。

人類組成的社會，雖然比生物圈高級得多，人類的理性能力也比動物植物強大得多。但在理性掌握的知識和實際運用的知識之間的巨大差距上，社會和生物圈并無本質不同。

實際上，人們正是通過對生物圈的觀察受到啟發，開始從演化而非設計的角度理解社會。曼德維爾的《蜜蜂的寓言》是這方面的開創之作。在達爾文進化論和亞當斯密《國富論》之間，也有明顯的知識親緣關系。

構建、維持、發展社會所需要的知識，遠遠超過任何人類大腦所能理解的知識。不管人類如何努力，不管計算機技術如何發達，人類在知識領域的“無知”狀態都無可改變。

大數據技術的前提是，人們已經認識和了解到某項數據的存在和意義。過去，由于技術的限制，無法搜集或者分析這些數據。有了計算機以后，就可以搜集、分析這些數據了。如果有更強大的計算機，還可以搜集、分析更多的已知數據。

由于人類無可改變的“無知”狀態，大量的知識，雖然時時刻刻發揮著不可或缺的作用，但卻不為人所知。因為這些知識不是以可表達、可記錄數據的方式存在，計算機再強大，也無從搜集、分析這些不存在的數據。再精準的狙擊槍，也無法命中不知在哪里的靶子。這些數據，處于“未知的未知”領域中。換句話說，有些事情，你知道;有些事情，你知道你不知道。但最多的事情是，你都不知道你的不知道。

如果人們如此無知，社會為什么沒有崩潰呢?構建、維持、發展社會所需要的知識，如果沒有存在于任何人的大腦中，那么，又存在于哪里呢?

答案是，哪里也不存在，所以也別費心去找了。人類確實需要超出大腦能力的智慧和知識量，但這個任務是由演化來完成的。人類社會是演化的結果。通過長期優勝劣汰、適者生存的演化，人類逐漸學會了運用那些必須的知識，但只是學會運用而已，并不能理性地掌握。被理性掌握的，只是其中的一小部分。能看到的冰山，只是水面上的那一小塊兒。

也就是說，人類大腦的能力雖然有限，但經過演化，有限的大腦在社會中卻能成功地運用遠超出其理解范圍的知識。

人人都會說話，但理解和掌握語法規則的，只是人群中的一小部分語法學家。在對語法規則毫無所知的情況下，人們已經正常說話成千上萬年了——那千萬年中，語法知識藏在哪里呢?

很多人學外語時，雖然對語法規則很熟悉，卻連起碼的會話能力都沒有，語言能力還不如那種語言的文盲。其實，即使是語法學家，也遠遠沒有徹底理解語言。比如，語言到底是如何產生的，到今天也沒人能說清楚。而外語學習的規律，人們也只理解到很初級的水平。

貨幣、法律、國家、道德、習俗……這些長期演化而成的社會事物，文明人都能在生活中運用自如，隨心而不逾矩，但絕大多數人對這些事物沒有起碼的研究。甚至說他們對此一無所知，也無大錯。有幾個人能看懂貨幣學專著呢?法律難道不是最艱深的學問嗎?但一無所知又怎樣呢?人們因此就不會使用貨幣，動輒觸犯法律嗎?

計劃經濟者的虛妄，就在于他們認為，只有那些被表達出來、被記錄下來的知識才是知識。于是，只會用不會說的正常人，就被劃為毫無知識的愚昧民眾。愚昧民眾必須由有知識的委員會來指揮。如果民眾不服從委員會，就是無知挑戰知識，就是落后對抗先進。為了社會的發展和進步，就要用刺刀強迫他們服從。這就是中央計劃。可是，委員會在現實中稍一嘗試，就立刻體驗到巨大的“無知感”。

十月革命后不久，托洛茨基就感嘆：一個只有五百畝的小農場，居然有那么多事務要去判斷、決定。蘇維埃那幾個計劃人員，如何忙得過來?沙皇時期，俄國長期向歐洲出口糧食。在委員會計劃取代愚昧農民的自主安排以后，一直到解體，蘇聯農業也是誰都解決不了的大難題。曾經的糧食主產區、土壤肥沃的烏克蘭，居然發生了可怕的大饑荒。數百萬人成為委員會農業計劃的犧牲品。

為什么計劃經濟無一例外地都萎縮成匱乏經濟，商品供應不足，且種類稀少?為什么計劃經濟社會都色彩單調，藍螞蟻滿街走?這不僅是因為生產力落后，僅從計劃人員的工作強度來說，他們也不能讓社會太豐富多彩啊——社會太豐富，委員會的人，忙死也計劃不過來啊。

研究蘇聯計劃經濟的經濟學家發現，要想讓蘇聯市場維持基本運轉，計劃委員會至少要日日確定2600萬種商品的價格及其變化。如此可怕的任務，還是交給天使去完成吧。商品、服務種類的增加，對消費者來說，是福音。對計劃委員會來說，是噩夢。

計劃經濟的核心不是計劃，而是強制。委員會通過強制，禁止人們運用那些雖然說不出來、但可以正常使用的知識——這些知識表現為經驗和轉瞬即逝的臨時信息，比如某街區特定時段適于銷售的商品種類和價格。委員會代之以被他們頭腦所理解、可以寫在文件中的知識。

可是，相比社會正常運轉所必需，委員會掌握的那點兒知識，九牛一毛都不到。結果就是，知識根本不夠用，社會也就因為缺乏知識而迅速落后和衰敗。

為了維持、發展一個大社會，人類必須運用很多知識，但卻只能理解其中很小一部分，記錄和研究更小的一部分，這就是人類無可改變的知識狀況——無知。在大數據時代，這種“無知”狀況有望改變甚至扭轉嗎?這還用問嗎?

市場往往被形容為無形的手。其實，市場更本質的特征是一個超級大腦。這個大腦時時刻刻都在收集、儲存和運用巨量的知識。這個大腦的能力遠超任何人兩耳之間的那個東西。試圖用自己的腦袋或者計算機代替市場這個超級大腦的，都是十足的妄人。他們的結局，只是害人害己。

大量須臾不可離的、極有價值的知識和信息，是不可能被集中收集到某個中心的。這些知識和信息，注定只能以分散的形式存在于社會的各個地方。開發、利用這些知識的唯一辦法是讓人們去自由探索和試錯，讓事實而不是某個人、某些人的意志決定誰對誰錯，誰成誰敗。

自由人的自由探索，和任何形式的、基于強制的中央計劃都格格不入，絕不兼容，不管這個中央計劃聲稱自己掌握了多少數據。

接下來進入廣告時間。各位請不要走開。

說是廣告，其實是一個現實的例子，用來進一步說明大數據的局限性。

我的一個朋友——新浪微博ID @迢書——開發了一款APP，名為“熟信”，用于熟人之間的借貸。熟信通過巧妙的設計，解決了熟人之間借貸的信用問題，讓人們更有機會通過熟人借貸滿足資金需求。

借貸，面臨的主要問題就是風險控制。銀行業，說到底，就是靠風險處理能力來賺錢的行業。

判斷風險，也就是判斷借款人還不起、賴賬的可能性，無非兩種辦法：

第一、數據和大數據方法

這種方法搜集借款人的種種特征和信息，也就是數據，比如過去的消費記錄、信用記錄、資產狀況、婚姻狀況、犯罪記錄，等等;另外就是借款的用處和贏利前景。通過這些數據，判斷借款人借錢不還的可能性。

自從銀行產生以來，銀行家大致就是這么控制風險的。一個曾經借錢不還，或者很窮，或者借錢去處很不靠譜的人，就很難從銀行借到錢。

注意：銀行收集的這些數據，一定是那種“你知道你不知道”的知識。你知道，一個資不抵債的人很可能賴賬，你不知道的，是他具體的資產狀況。要做的，是去搜集他的資產狀況數據。搜集到了，就可以用來判斷風險。

進入大數據時代以后，人們知道了更多值得知道的數據。比如，一個人十年沒有更換過手機號碼，那么，他應該比較可信，因為這說明他至少十年沒躲過債。一個人多次出國旅游，護照都用了好幾本了，他的收入多半比較高。根據一個人的淘寶購物記錄，可以比較準確地判斷出他的經濟狀況。

在大數據時代以前，確實無從搜集這些數據。即使知道這些數據很管用，也搜集不到。

問題在于，這些數據真能全面、準確地反映一個人的信用狀況嗎?恐怕只是近似和大致而已。重要的是，你知道這些數據很重要，借款人當然也知道。你的大腦并不比他更能干。于是，那些蓄意騙貸的人，會在這些方面提前下功夫，制造出符合要求的數據。

因此，現實中的銀行，即使搜集到很多這種數據，一般也不敢輕易放款。他們還要借款人提供足夠的抵押和擔保。這足以表明，銀行其實很清楚，靠這些有形數據，即使數據量再大，也不能真正控制風險。

可是這樣一來，銀行就要放棄一大塊借貸市場。放棄那些其實很有前途、信用也很好，只是不能提供有形數據或足夠抵押的借款人。銀行只能眼睜睜看著風險投資在這個市場中賺錢了。

風險投資的做法是干脆放棄判斷風險，轉而追求一將功成萬骨枯。只要盈利項目的收入足以彌補虧損項目，有多少項目虧損，無所謂。

可是，這樣也有問題。只有那些具備高成長性和有可能賺到超額利潤的項目才會得到風險投資。正常利潤的投資需求，風險投資是懶得關注的。

第二、綜合判斷

一個熟悉的親戚或朋友向你借錢，你不會像銀行那些去搜集他的種種數據，頂多會問一下借款的用處。

為什么你不去搜集他的種種數據?因為你掌握著更豐富、更詳實的數據——只不過，這些數據是不可見的。它們并沒有被記錄、儲存在某個地方，而是融合成一個整體，形成你對那個人的印象。也正因此，他被稱為你的熟人。你對他的為人、信用、性格、收入、家庭都有著足夠的了解。無須依靠任何可見數據，你就能判斷出他是否會賴賬。

給你一張紙，讓你寫出某個熟人的種種特征，你很可能寫不出太多。可是實際上，你對他的了解，是一個極大的“數據庫”。這個數據庫由多年面對面打交道的經歷積累而成，無數的交談、語氣、表情、感受……其中包含的知識和信息量之大，根本無法計量。你可以自如、簡單地使用這些知識，以判斷這位熟人的信用，但你自己也說不清這些知識到底是什么。

到底他什么時候的哪次談話，讓你開始覺得這個人可以信任的?他說了什么，讓你覺得他這個人不靠譜的?為什么別人都覺得他不錯，就你認為他不好?每次吃飯他都搶著買單，為什么你還不愿意和他一起吃飯聊天?他做生意已經賠了好幾次了，為什么你覺得他這次會成功……

類似的問題，根本無從回答。但回答不出來，并不影響你做出判斷。即使你忘記了所有細節，只要是熟人，你就會對他有清晰的印象和判斷。這種熟人之間的互相了解，不依賴有形數據，卻擁有比任何大數據都要大得多的數據量。相比這個無形的數據庫，大數據所能搜集、分析的數據實在太小——小得很。

各有各的用處

兩種方法相比，顯然，綜合判斷所能利用的數據量要大得多，可靠性也高得多。因此，在那些由于種種困難銀行不能開展業務的地方，熟人之間的借貸成為滿足人們資金需求的主要方法。銀行不是哪里都有，熟人借貸卻無處不在。

那些困擾銀行，以至于使其無法開展業務的障礙，卻不能阻擋熟人借貸的順利進行。就算是在極端情況下，比如逃荒途中，正直可靠有信用的人，也依然會從熟人那里借到錢糧。你能想象有什么銀行會向狼狽困頓的逃荒者發放貸款嗎?

雖然熟人借貸能夠利用那個最大的數據庫，可靠性很高，但世事無完美，熟人之間的違約、賴賬當然也會發生。熟人借貸的短板正在這里。

生人之間的借貸，或銀行發放的貸款，債權人可以毫不客氣地追收借款，并不必顧忌人情和面子。熟人借貸就不同了。面對多年的熟人，以及相關的社會關系，嚴厲追收欠款，說起來容易做起來難。

正因為有這個顧忌，所以熟人之間的借貸，即使違約風險很小，人們往往也敬而遠之。“不向朋友借錢，也別把錢借給朋友”。無數長輩都這樣教導后人。因為他們見到或聽說太多借錢導致朋友互相尷尬，甚至反目成仇的例子。

熟信正是為了解決這個問題。

如果你有余錢放貸，打算賺取利息收入，那么，熟信請你給目前的朋友分別作出匿名評估。評估無須具體描述，而是列出你對某人放心借貸的資金量。

你愿意借給他多少錢，足以顯示出你對他的信任度。這實際是一個價格信號，而價格信號正是演化而成的市場體系的核心部分。價格信號的獨特優勢在于，它雖然抽象簡單，但卻是一種完備信息，包含了所有你意識到、沒意識到的可用知識和信息。所有這些知識打包在一起，形成價格。

通過技術手段，熟信在打算放貸和打算借錢的熟人之間進行匹配。熟信并不經手資金，僅限于居中搭橋，讓雙方匿名借貸。借到你錢的，一定是你的熟人，借貸額不超過你給他的信任評估額。另一方面，你借到的錢，一定來自熟人，數額不超過他對你的信任度——這個信任度是用錢表達出來的，非常可信，比當面夸獎可信多了。

為什么一定要匿名呢?這就是為了解決熟人借貸的風險問題。熟人之間發生違約賴賬，大家不好撕破臉皮制裁賴賬者，現在，這個惡人角色由熟信來充當了。即使只違約一天，他們也將毫不客氣地公布賴賬者，即使債權人不忍心也不行。

其實，這個惡人也并非由熟信經營方來充當，而是由一個事先聲明、參與者都自愿接受的自動機制來充當。正因為是自動機制，被制裁者無法遷怒于任何具體人。規則就是如此。抱歉，誰也幫不了你。

沒有熟信，債務人違約賴賬，只被債權人和少數知情者得知。即使債權人撕破臉大鬧，其他人也不見得就完全相信——誰知道你們倆當初是怎么說的，后來又發生了什么事……

有了熟信，債務人的違約信息，將以正規清晰的形式發布給所有參與者。大家將相應改變對他的信用評估。他以后再想借錢，即使不是不可能，也一定困難重重。這種效果簡直和傳統社會的債務監獄差不多——違反市場規則的人，在作出賠償和超額彌補以前，被趕出市場。他沒有機會再次破壞市場秩序了。

傳統社會中債務監獄的存在，是市場紀律必須的保證機制之一。金本位約束了政府濫發貨幣的貪欲。債務監獄則約束了個人的怠惰和不負責。可惜，后來由于片面人道主義的泛濫，債務監獄不再被允許存在。這就破壞了市場紀律的基礎，成為當代許多敗德行為和無賴心理的源頭。

熟信的這些巧妙設計，把人類社會產生以來就有的那個熟人信息數據庫開發出來了。過去，這個數據庫也存在，但由于熟人之間缺乏有效的制裁手段，數據庫的使用受到很大限制。現在，借助熟信，人們有了空前廣泛的機會開發利用這個數據庫中的大量知識。從這個角度，說熟信實現了市場的一種解放，并不是夸張和溢美之詞。

當然，世界上畢竟不可能全都是熟人借貸。生人之間的借貸，勢必大量存在。銀行依靠有形數據和抵押擔保的風險控制方法雖然不理想，但畢竟可以滿足生人之間的許多借貸需求。兩種風險控制的方法，并不存在高低優劣的差別。它們分別適用于不同的領域而已。方法本身沒有錯，錯的是誤用和濫用方法。

有人試圖利用大數據來客觀分析出人們信用水平，不再用抵押擔保，就開展生人之間的借貸業務。這就是對大數據技術的濫用。這些平臺的很快失敗，甚至爆出丑聞，完全在預料之中。

之所以會誤用、濫用大數據技術，就是因為他們沒有意識到大數據之“小”。大數據技術確實為人們提供了比過去多得多的數據，但面對無限廣大的社會知識領域，人類無知的狀況并沒有多大改變。人類在這個世界上依然很容易犯錯誤、永遠要面對未來的風險和不確定性。探索的唯一方式還是試錯、反饋和持續修正。真理永遠可望不可即。

熟信的意義，在于創造出一個框架，人們可以借此開發利用自身掌握的豐富知識，而不是像那些無知的大數據擁躉那樣，試圖取而代之，用自己收集到的拙劣、貧乏的“大數據”去挑戰無比豐富、無限廣大的社會知識庫。這些擁躉，如果有了刺刀，就會弄出毀滅社會的計劃經濟。沒有刺刀，就會弄出一場場注定失敗的燒錢游戲。

哈耶克對人類知識狀況的揭示，既說明了人類理性的永恒局限，也告知世人自由的極端重要。自由，不僅有高度的道德意義，也有不可取代的效率價值。自由的社會，才是繁榮富強的社會，這絕非偶然。人類永恒的無知狀況，這并不是一個壞消息。直面這種不可改變的無知，人們才會抑制自身的狂妄，去努力探尋真實的成功之道。

果然，熟信的開發者 @迢書高度贊頌哈耶克關于人類知識狀況的洞見，并稱深受啟發。而作為一個旁觀者，有機會目睹哈耶克的偉大理論轉化為推動社會發展的利器，我備感榮幸和興奮。

制裁者信任評估語法知識