編者按:本文來自微信公眾號“伯凡時間”(ID:bofanstime),作者吳伯凡;36氪經授權發布。
歐盟司法和消費者委員會曾經推出過一個視頻,視頻里有三位主人公,一位是辦公室女職員,她正在網上預訂機票;一位是在機場候機大廳玩社交網站打發時間的年輕小伙子,他正要發布一張自己前天在某處party的照片,還有一位是在家中也許是給自己的孩子購買玩具的父親,他正在購買頁面中加入姓名銀行卡家庭住址等信息……
下一幕畫面是:這三位人士同時按下回車鍵,而他們的衣服也自動從身上脫落,女士赤條條坐在辦公室的格子間里,小伙子在空曠的候機大廳里全身赤裸,那位父親則光不溜秋地坐在自家沙發上,他們三人對此渾然不覺,繼續做著接下來要做的事情,工作、見親人朋友等等。
視頻結尾打出兩行字:Online you reveal more than you think. Take control of your personal data——這條有點黑色幽默的視頻希望提醒人們,很多時候,我們都是這樣在網上“裸奔”,你的數據早已經泄露了你的一切。
這條廣告用充滿視覺沖擊力的真實裸體,讓我們感覺到了暴露身份信息的可怕,不過看完之后,除了會心一笑,大多數人也還是該干嘛就干嘛,為了獲得網絡提供的便利性,在網上“裸奔”似乎早已成了人們愿意為之付出的代價了。
1
我們已經生活在大數據時代。在2017年重讀發行于2013年的《大數據時代----生活、工作與思維的大變革》,可能我們依然會折服于它的諸多“先見之明”。這本書的作者有兩位,一位是《經濟學人》雜志的數據編輯,大數據領域最受尊敬的發言人之一肯尼思·庫克耶,另一位是維克托·邁爾-舍恩伯格,他是牛津大學網絡學院互聯網研究所治理與監管專業教授,被譽為“大數據時代的預言家”,他不僅為全球頂級企業提供咨詢,也是政府智囊,參與制定歐盟的互聯網官方政策。
這本書首先開宗明義,提出大數據思維是指一種意識,認為公開數據一旦處理得當,就能為千百萬人急需解決的問題提供答案。比如說,通過對Google關鍵詞搜索的及時分析,我們可以通過某地增多的“頭痛、發熱”搜索關鍵語,預測下一輪禽流感的出現。比如,我們如果能及時地監控手機數據,幾年前發生新年踩踏事故的上海警察們也許可以早一點獲得警示,在可能出事的地方提前布置警力。
大數據讓網絡數據服務更精準于迎和用戶的喜好,不論是愛讀的新聞,愛讀的書,愛看的電視連續劇,還是你可能會喜歡的旅游目的地,大數據都能幫你一連串兒地接龍下去。
大數據發展的核心動力來源于人類測量、記錄和分析世界的渴望,人們一直以為,信息技術的變革重點在“T”(技術,technology)上,而不是在“I”(信息,information)上,而大數據思維者認為,是時候把聚光燈打向“I”,開始關注信息本身。
他們堅信,一切皆可“量化”:當文字變成數據,當方位變成數據,當溝通變成數據,當世間萬物數據化,我們便可以通過數據的再利用、重組數據、可擴展數據、數據的折舊值、數據廢氣、開放數據等作為進行“取之不盡,用之不竭”的數據創新。
2
在我們現在這個時代,大量信息被廉價地捕捉和記錄,數據經常會得到被動地收集,人們無須投入太多精力甚至不需要認識這些數據。大部分數據的直接價值對收集者是顯而易見的,亞馬遜記錄下客戶購買的書藉和他們瀏覽過的頁面,便可以利用這些數據來為客戶提供個性化的建議。Facebook跟蹤用戶的“狀態更新”和“喜好”,以確定最佳的廣告位從而賺取收入----這就是數據的再利用。
重組數據指將兩個或多個數據源以一種新穎的方法結合起來,比如將某個房地產網站信息和價格添加在社區地圖上,同時聚合大量信息,如社區近期交易和物業規格,以此來預測區域內具體每套信宅的價值。促成數據再利用的方法之一,就是從一開始就設計好它的可擴展性。
比如,有些零售商在店內安裝了監控攝像頭,這樣不僅能認出商店扒手,還能跟蹤在商店里購物的客戶和他們停留的位置。之前,監控報像機僅僅出于安全保衛,現在零售商則可以利用得到的信息設計店面的最佳布局并判斷營銷活動的有效性----監控攝像機從一項純粹的成本支出成為了一項可以增加收入的投資。
數據折舊值和數據廢氣是值得重點講講的兩項數據創新。隨著數據存儲成本的大幅下降,企業擁有了更強的經濟動機來保存數據。隨著時間的推移,大多數數據會失去一部分基本用途。比如說亞馬遜通常不會基于你十年前買的書來向你推薦,因為系統默認為你十年前的書你現在可能已經對它不感興趣了。
亞馬遜認為舊數據的存在毀壞了新數據的價值,所以亞馬遜決定只使用仍然有生產價值的數據,這就需要不斷更新數據庫并淘汰無用信息。然而亞馬遜發現僅僅依據時間來判斷顯然不夠,因此亞馬遜公司建立了復雜的模型來幫助自己分離有用和無用的數據。
比如,如果客戶瀏覽或購買了一本基于以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊數據的有用性,并使模型的“折舊率”更具體。
然而,并非所有數據都會貶值。有些公司提倡盡可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。比如谷歌公司一直以來都拒絕將互聯網協議地址從舊的搜索查詢中完全去除,它只是在一年半后刪除了最后四位數以隱匿搜索查詢。
谷歌希望得到每年的同比數據,如假日購物搜索等。此外,通過了解搜索者的位置,可以幫助改善搜索結果的相關性。像很多紐約人會搜索“火雞”,但經常會搜索到與“火雞”無關的關于“土耳其”的網頁,因為英文中這兩個詞拼法是一樣的。
通過算法可以將他們想查看的網頁放在排名靠前的位置,來方便其他紐約人查找。即使數據用于基本用途的價值會減少,但潛在價值卻依然強大。潛在價值表明,組織機構應收集盡可能多的使用數據并保存盡可能長的時間,這樣一來,由數據再利用而產生的任何商業價值,原始數據擁有者都能從中分一杯羹。
3
“數據廢氣” 是一個用來描述人們在網上留下數字軌跡的藝術詞匯,它指用戶在線交互留下的副產品,包括瀏覽了哪些頁面、停留了多久、鼠標光標停留的位置、輸入了什么信息等等。許多公司利用“數據廢氣”完善自己的服務和功能。
谷歌是這方面的領導者,它將不斷地“從數據中學習”這個原則應用到許多服務當中,用戶執行的每一個動作都被認為是一個“信號”,谷歌對這些“信號”進行分析并且反聵給系統。“數據廢氣”成為許多電腦化服務背后的機制,如拼寫檢查、語音識別、垃圾郵件過濾、翻譯等,當用戶指出語音識別程序誤解了他們的意思時,他們實際上有效地“訓練”了這個系統,讓它變得更好。
在Facebook早期,數據科學家們研究了“數據廢氣”的豐富信息,發現人們會采用某種行動如回貼、點擊圖標等,人們采取這些行動最重要的預測指標就是他們看到了周圍的朋友們也在這么做。于是Facebook馬上重新設計了它的系統,使每個用戶的活動變得可見并廣播出去,這為網站的良性循環做出了新的貢獻。
漸漸的,這個想法從互聯網行業傳播至可以收集用戶反聵的任何公司。我們可能會認為谷歌和亞馬遜這些網站是大數據的先驅者,但實際上,政府才是大規模信息的原始采集者,并且還在與私營企業競爭他們所控制的大量數據。政府與私營企業數據持有之間的主要區別就是,政府可以強迫人們為他們提供信息,而不必加以說服或支付報酬。
因此,政府將繼續收集和積累大量的數據。大數據對公共部門的適用性和對商業實體是一樣的:大部分的數據價值都是潛在的,需要通過創新的分析來釋放,但是,由于政府在獲取數據中所處的特別地位,因此他們在數據使用上往往效率很低。
4
近年來,有一個想法在歐美國家得到了公認,即提取政府數據價值最好的辦法是允許私營部門和社會大眾訪問。這種想法基于的原則是:國家收集數據時,代表的是它的公民,因此它也理應提供一個讓公民查看的入口,少數可能會危害到國家安全或他人隱私權的情況除外。
主張開放數據入口的人認為,政府只是他們所收集信息的托管人,私營部門和社會對數據的利用會比政府更具有創新性。開放數據倡導者呼吁建立專門的官方機構來公布民用和商業數據,而且數據必須以標準的可機讀形式展現,以方便人們處理。
2008年1月21日,奧巴馬在就職總統的第一天發表了一份總統備忘錄,命令美國聯邦機構的負責人公布盡可能多的數據,奧巴馬的指令促成了data.org網站的建立,這便是美國聯邦政府的公開信息資料庫。這個網站從2009年的47個數據集迅速發展起來,到2012年7月三周年時,數據集已達到45萬個左右,涵蓋了172個機構。
英國隨后也做出實質性轉變,以往政府信息都封鎖在英國皇家版權手中,使用起來非常困難和昂貴,而現在英國政府已經頒布相關規定鼓勵信息公開,并支持創建萬維網的發明者蒂姆·伯納斯參與指導開放式數據中心。
其它國家如澳大利亞、巴西、智利等也相繼出臺了并實施了開放數據策略。一些國際組織也加入了開放數據的熱潮,如世界銀行就公開了數百個之前被限制的關于經濟和社會指標方面的數據集。
大數據價值鏈有三大構成,分別是:第一基于數據的公司比如Twitter,第二基于技能的公司它們提供咨詢技術供應和數據分析,第三基于思維的公司,比如今日頭條這樣的公司。那么,誰在這個大數據價值鏈中獲益最大呢?答案是那些擁有大數據思維或者說創新性思維的人。
隨著大數據成為我們生活的一部分,大數據工具變得更容易和更方便使用,越來越多掌握這些技能,這些技能的價值就會相對減少,就像20世紀六十年代之后計算機編程變得越來越普遍一樣。現在歐美之外的外包公司使得計算機編程技術越來越廉價,如今它成了世界貧困人口致富的驅動力,而不再代表著高端技術。
現今,我們正處在大數據時代的早期,思維和技能是最有價值的,但是最終,大部分的價值還是必須從數據本身中挖掘。在未來,我們可以利用數據據做更多的事情,而數據擁有者們也會真正意識到他們所擁有的財富。因此,他們可能會把他們手中所擁有的數據抓得更緊,也會以更高的價格將其出售。
數據就是金礦,但是讓數據主宰一切的憂慮也顯而易見,那么,在大數據時代,我們更要思考應該做什么,不應該做什么?請關注伯凡時間,會就這個話題繼續展開討論。
編者按:本文來自微信公眾號“伯凡時間”(ID:bofanstime),作者吳伯凡;36氪經授權發布。
歐盟司法和消費者委員會曾經推出過一個視頻,視頻里有三位主人公,一位是辦公室女職員,她正在網上預訂機票;一位是在機場候機大廳玩社交網站打發時間的年輕小伙子,他正要發布一張自己前天在某處party的照片,還有一位是在家中也許是給自己的孩子購買玩具的父親,他正在購買頁面中加入姓名銀行卡家庭住址等信息……
下一幕畫面是:這三位人士同時按下回車鍵,而他們的衣服也自動從身上脫落,女士赤條條坐在辦公室的格子間里,小伙子在空曠的候機大廳里全身赤裸,那位父親則光不溜秋地坐在自家沙發上,他們三人對此渾然不覺,繼續做著接下來要做的事情,工作、見親人朋友等等。
視頻結尾打出兩行字:Online you reveal more than you think. Take control of your personal data——這條有點黑色幽默的視頻希望提醒人們,很多時候,我們都是這樣在網上“裸奔”,你的數據早已經泄露了你的一切。
這條廣告用充滿視覺沖擊力的真實裸體,讓我們感覺到了暴露身份信息的可怕,不過看完之后,除了會心一笑,大多數人也還是該干嘛就干嘛,為了獲得網絡提供的便利性,在網上“裸奔”似乎早已成了人們愿意為之付出的代價了。
1
我們已經生活在大數據時代。在2017年重讀發行于2013年的《大數據時代----生活、工作與思維的大變革》,可能我們依然會折服于它的諸多“先見之明”。這本書的作者有兩位,一位是《經濟學人》雜志的數據編輯,大數據領域最受尊敬的發言人之一肯尼思·庫克耶,另一位是維克托·邁爾-舍恩伯格,他是牛津大學網絡學院互聯網研究所治理與監管專業教授,被譽為“大數據時代的預言家”,他不僅為全球頂級企業提供咨詢,也是政府智囊,參與制定歐盟的互聯網官方政策。
這本書首先開宗明義,提出大數據思維是指一種意識,認為公開數據一旦處理得當,就能為千百萬人急需解決的問題提供答案。比如說,通過對Google關鍵詞搜索的及時分析,我們可以通過某地增多的“頭痛、發熱”搜索關鍵語,預測下一輪禽流感的出現。比如,我們如果能及時地監控手機數據,幾年前發生新年踩踏事故的上海警察們也許可以早一點獲得警示,在可能出事的地方提前布置警力。
大數據讓網絡數據服務更精準于迎和用戶的喜好,不論是愛讀的新聞,愛讀的書,愛看的電視連續劇,還是你可能會喜歡的旅游目的地,大數據都能幫你一連串兒地接龍下去。
大數據發展的核心動力來源于人類測量、記錄和分析世界的渴望,人們一直以為,信息技術的變革重點在“T”(技術,technology)上,而不是在“I”(信息,information)上,而大數據思維者認為,是時候把聚光燈打向“I”,開始關注信息本身。
他們堅信,一切皆可“量化”:當文字變成數據,當方位變成數據,當溝通變成數據,當世間萬物數據化,我們便可以通過數據的再利用、重組數據、可擴展數據、數據的折舊值、數據廢氣、開放數據等作為進行“取之不盡,用之不竭”的數據創新。
2
在我們現在這個時代,大量信息被廉價地捕捉和記錄,數據經常會得到被動地收集,人們無須投入太多精力甚至不需要認識這些數據。大部分數據的直接價值對收集者是顯而易見的,亞馬遜記錄下客戶購買的書藉和他們瀏覽過的頁面,便可以利用這些數據來為客戶提供個性化的建議。Facebook跟蹤用戶的“狀態更新”和“喜好”,以確定最佳的廣告位從而賺取收入----這就是數據的再利用。
重組數據指將兩個或多個數據源以一種新穎的方法結合起來,比如將某個房地產網站信息和價格添加在社區地圖上,同時聚合大量信息,如社區近期交易和物業規格,以此來預測區域內具體每套信宅的價值。促成數據再利用的方法之一,就是從一開始就設計好它的可擴展性。
比如,有些零售商在店內安裝了監控攝像頭,這樣不僅能認出商店扒手,還能跟蹤在商店里購物的客戶和他們停留的位置。之前,監控報像機僅僅出于安全保衛,現在零售商則可以利用得到的信息設計店面的最佳布局并判斷營銷活動的有效性----監控攝像機從一項純粹的成本支出成為了一項可以增加收入的投資。
數據折舊值和數據廢氣是值得重點講講的兩項數據創新。隨著數據存儲成本的大幅下降,企業擁有了更強的經濟動機來保存數據。隨著時間的推移,大多數數據會失去一部分基本用途。比如說亞馬遜通常不會基于你十年前買的書來向你推薦,因為系統默認為你十年前的書你現在可能已經對它不感興趣了。
亞馬遜認為舊數據的存在毀壞了新數據的價值,所以亞馬遜決定只使用仍然有生產價值的數據,這就需要不斷更新數據庫并淘汰無用信息。然而亞馬遜發現僅僅依據時間來判斷顯然不夠,因此亞馬遜公司建立了復雜的模型來幫助自己分離有用和無用的數據。
比如,如果客戶瀏覽或購買了一本基于以往購買記錄而推薦的書,電子商務公司就認為這項舊的購買記錄仍然代表著客戶的喜好。這樣,他們就能夠評價舊數據的有用性,并使模型的“折舊率”更具體。
然而,并非所有數據都會貶值。有些公司提倡盡可能長時間地保存數據,即使監管部門或公眾要求它們短時間內刪除或隱匿這些信息。比如谷歌公司一直以來都拒絕將互聯網協議地址從舊的搜索查詢中完全去除,它只是在一年半后刪除了最后四位數以隱匿搜索查詢。
谷歌希望得到每年的同比數據,如假日購物搜索等。此外,通過了解搜索者的位置,可以幫助改善搜索結果的相關性。像很多紐約人會搜索“火雞”,但經常會搜索到與“火雞”無關的關于“土耳其”的網頁,因為英文中這兩個詞拼法是一樣的。
通過算法可以將他們想查看的網頁放在排名靠前的位置,來方便其他紐約人查找。即使數據用于基本用途的價值會減少,但潛在價值卻依然強大。潛在價值表明,組織機構應收集盡可能多的使用數據并保存盡可能長的時間,這樣一來,由數據再利用而產生的任何商業價值,原始數據擁有者都能從中分一杯羹。
3
“數據廢氣” 是一個用來描述人們在網上留下數字軌跡的藝術詞匯,它指用戶在線交互留下的副產品,包括瀏覽了哪些頁面、停留了多久、鼠標光標停留的位置、輸入了什么信息等等。許多公司利用“數據廢氣”完善自己的服務和功能。
谷歌是這方面的領導者,它將不斷地“從數據中學習”這個原則應用到許多服務當中,用戶執行的每一個動作都被認為是一個“信號”,谷歌對這些“信號”進行分析并且反聵給系統。“數據廢氣”成為許多電腦化服務背后的機制,如拼寫檢查、語音識別、垃圾郵件過濾、翻譯等,當用戶指出語音識別程序誤解了他們的意思時,他們實際上有效地“訓練”了這個系統,讓它變得更好。
在Facebook早期,數據科學家們研究了“數據廢氣”的豐富信息,發現人們會采用某種行動如回貼、點擊圖標等,人們采取這些行動最重要的預測指標就是他們看到了周圍的朋友們也在這么做。于是Facebook馬上重新設計了它的系統,使每個用戶的活動變得可見并廣播出去,這為網站的良性循環做出了新的貢獻。
漸漸的,這個想法從互聯網行業傳播至可以收集用戶反聵的任何公司。我們可能會認為谷歌和亞馬遜這些網站是大數據的先驅者,但實際上,政府才是大規模信息的原始采集者,并且還在與私營企業競爭他們所控制的大量數據。政府與私營企業數據持有之間的主要區別就是,政府可以強迫人們為他們提供信息,而不必加以說服或支付報酬。
因此,政府將繼續收集和積累大量的數據。大數據對公共部門的適用性和對商業實體是一樣的:大部分的數據價值都是潛在的,需要通過創新的分析來釋放,但是,由于政府在獲取數據中所處的特別地位,因此他們在數據使用上往往效率很低。
4
近年來,有一個想法在歐美國家得到了公認,即提取政府數據價值最好的辦法是允許私營部門和社會大眾訪問。這種想法基于的原則是:國家收集數據時,代表的是它的公民,因此它也理應提供一個讓公民查看的入口,少數可能會危害到國家安全或他人隱私權的情況除外。
主張開放數據入口的人認為,政府只是他們所收集信息的托管人,私營部門和社會對數據的利用會比政府更具有創新性。開放數據倡導者呼吁建立專門的官方機構來公布民用和商業數據,而且數據必須以標準的可機讀形式展現,以方便人們處理。
2008年1月21日,奧巴馬在就職總統的第一天發表了一份總統備忘錄,命令美國聯邦機構的負責人公布盡可能多的數據,奧巴馬的指令促成了data.org網站的建立,這便是美國聯邦政府的公開信息資料庫。這個網站從2009年的47個數據集迅速發展起來,到2012年7月三周年時,數據集已達到45萬個左右,涵蓋了172個機構。
英國隨后也做出實質性轉變,以往政府信息都封鎖在英國皇家版權手中,使用起來非常困難和昂貴,而現在英國政府已經頒布相關規定鼓勵信息公開,并支持創建萬維網的發明者蒂姆·伯納斯參與指導開放式數據中心。
其它國家如澳大利亞、巴西、智利等也相繼出臺了并實施了開放數據策略。一些國際組織也加入了開放數據的熱潮,如世界銀行就公開了數百個之前被限制的關于經濟和社會指標方面的數據集。
大數據價值鏈有三大構成,分別是:第一基于數據的公司比如Twitter,第二基于技能的公司它們提供咨詢技術供應和數據分析,第三基于思維的公司,比如今日頭條這樣的公司。那么,誰在這個大數據價值鏈中獲益最大呢?答案是那些擁有大數據思維或者說創新性思維的人。
隨著大數據成為我們生活的一部分,大數據工具變得更容易和更方便使用,越來越多掌握這些技能,這些技能的價值就會相對減少,就像20世紀六十年代之后計算機編程變得越來越普遍一樣。現在歐美之外的外包公司使得計算機編程技術越來越廉價,如今它成了世界貧困人口致富的驅動力,而不再代表著高端技術。
現今,我們正處在大數據時代的早期,思維和技能是最有價值的,但是最終,大部分的價值還是必須從數據本身中挖掘。在未來,我們可以利用數據據做更多的事情,而數據擁有者們也會真正意識到他們所擁有的財富。因此,他們可能會把他們手中所擁有的數據抓得更緊,也會以更高的價格將其出售。
數據就是金礦,但是讓數據主宰一切的憂慮也顯而易見,那么,在大數據時代,我們更要思考應該做什么,不應該做什么?請關注伯凡時間,會就這個話題繼續展開討論。