精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據的常見五大誤解

責任編輯:黃心怡

2013-05-28 10:37:10

來源:企業網D1Net

原創

事實并非如此。大數據的發起者們希望讓我們相信,計算機代碼和數據庫能洞察人類客觀普遍的行為模式,不管是消費支出、犯罪或恐怖行為、健康的生活習慣,還是企業生產力。但許多大數據

《企業網D1Net》5月28日訊

有足夠的數據,結論不言自明。

事實并非如此。大數據的發起者們希望讓我們相信,計算機代碼和數據庫能洞察人類客觀普遍的行為模式,不管是消費支出、犯罪或恐怖行為、健康的生活習慣,還是企業生產力。但許多大數據的推廣者們忽視了大數據的弱點。數字不能自己開口說話,無論多大的數據集,仍然是由人設計的。大數據的工具,比如Apache的Hadoop軟件框架,不能讓我們完全避免錯誤或有差距的假設。當大數據試圖反映我們生活的世界時,我們經常會誤以為數據比人的意見更客觀。但其實大數據中存在的偏見和盲點,與個人看法和經驗中存在的一樣多。同時,認為數據越多越好,也是有問題的。就像相關性不等同于因果性一樣。

例如,社交媒體是一種非常流行的大數據分析來源,那里肯定有大量的信息等待挖掘。推特的數據告訴我們,人們遠離家庭時更幸福,在周四晚上最悲傷。但我們很應該問問這個數據實際上反映了什么東西。首先,我們知道,在美國只有16%的成年網民使用Twitter,他們絕不是一個有代表性的樣品。他們比一般人群更年輕,更為城市化。此外,許多Twitter賬戶是自動響應程序,它們被稱為“機器人”、假賬戶、或“半機械人” ,是由機器人輔助控制的賬戶。最近的估計表明,可能有多達20萬的假帳戶。所以,當我們評估Twitter上的情緒時,需要先問問這些情緒是來自于人還是僅為自動的算法。

但即使你確信,絕大多數上Twitter的是真正有血有肉的人,仍然會存在偏頗。例如,要確定哪些球員在2013年澳網公開賽上是被社交媒體提到最多的。IBM使用Social Sentiment Index(社會情緒指數分析)對推特進行了大規模的分析。結果判定,阿扎倫卡位列第一。但許多人在推特上提到阿扎倫卡是因為有爭議的超時傷停。因此人們是喜歡她還是討厭她?IBM的分析算法很難得到正確的答案。

一旦我們理解了數據的偏頗,我們還可以思考讓其產生偏見的原因。一些新聞聚合類的網站對此也感到棘手,它們需要研究讀者的個人喜好,找尋最新受歡迎的話題。如何判別呢?是假設提到的頻率多少等同于重要性,還是認為社交網站上最受歡迎的故事也對必然能吸引讀者?由于算法過濾了大量數據,它將決定世界是如何呈現的,普通用戶將永遠不會意識到它,但它將有力地塑造他們的看法。

一些計算機科學家正在解決這些問題。埃德費爾頓是普林斯頓大學教授,也是前美國聯邦貿易委員會的首席技術專家,他最近宣布了一項計劃來測試算法會產生的偏見,尤其是那些美國政府用來評估個人狀態的。

大數據將會使我們的城市更聰明,更高效。

這只在一定程度上是。

大數據可以提供有價值的見解,以幫助改善我們的城市,但它能做的有限。因為并不是所有的數據都被同等地創建或收集,總有一些社區和居民被忽視。因此,將大數據用于城市規劃在很大程度上依賴當地官員是否了解數據及其自身局限。

例如,波士頓的Street Bump應用可以收集遇到地面凹坑的司機的智能手機數據,以較低的成本收集信息。但是,如果城市開始依賴只來自智能手機的數據,它就是一個經過選擇的樣本,那些非智能手機用戶的數據就會減少,他們通常是年長的和不太富裕的人群。雖然波士頓政府已經在努力解決這些潛在的數據鴻溝,但是不太認真的政府官員可能會非常漏掉他們,并最終導致錯誤的資源分配方式,進一步鞏固現有的社會不平等現象。人們只需要看看2012年谷歌對流感趨勢的失算就明白了,每年的流感發病率被明顯高估,這就是錯誤的大數據可能會對公共服務和政策造成的影響。

這對于美國的“開放政府”計劃也是一樣。Data.gov和白宮的開放政府計劃將公共部門的數據放上網。但是更多的數據不一定會改善政府的透明度和問責制,除非存在允許公眾和機構之間接觸的機制,更不用說提高政府解釋數據和應對的能力。這些都不是容易的。事實上,目前熟練的數據科學家還很少。大學正在爭先恐后地定義詞匯,撰寫課程,并滿足需求。

人權團體也正在使用大數據來幫助理解沖突和危機。但同樣也存在數據質量和分析的問題。麥克阿瑟基金會最近贊助卡內基梅隆大學中心175000美金,助其研究大數據分析如何改變人權,比如通過開發“可信度測試”工具來挑選侵犯人權的新聞,將其放在Facebook、YouTube等網站上。該中心的主任指出,有“學術和人權組織的數據來源和使用存在嚴重問題。在許多情況下,還不清楚涉事人員的安全是得到增強了還是被威脅了。

大數據不區分社會團體。

另一個大數據的承諾是所謂的客觀性,減少對少數群體的歧視,因為原始數據在某種程度上沒有社會偏見,在大眾層面分析,避免群體歧視。然而,通常部署大數據正是為了這個目的——把個人按組別分類,因為它能區分不同群體的表現。例如,最近有一篇文章是關于科學家們如何運用自己的種族假設來塑造自己的大數據基因組學研究。

大數據若用于種族歧視將引發嚴重的人權問題,以” 個性化“的名義對不同的社會群體區別對待。而法律通常禁止企業或個人做這樣明確的分類。企業可以有選擇性地展示信用卡廣告,針對那些家庭收入或者信貸歷史最符合的人,而讓別人完全不知道存在這個特定的信用卡。谷歌甚至有動態價格內容的專利,這意味著,如果您過去的購買歷史表明,你更傾向于購買花大錢買鞋,那么你下次去網上店鋪購物時,鞋類的起拍價可能會相當高。雇主現在正試圖將大數據應用到人力資源,評估如何提高員工的工作效率,而這些都是通過分析他們的每一次點擊。員工可能不知道有多少他們的數據正在被收集以及如何被使用。

歧視也可以對其他的人群細分。比如,紐約時報報道,Target公司多年前開始編制客戶的分析檔案,它現在有這么多的購買趨勢的數據,可以根據一個女人的購物記錄,預測她對于懷孕有87%的信心。Target公司的統計學家在文章中強調,這將有助于改善對準父母的營銷,但這也可能會在社會平等和隱私方面導致嚴重的后果。

近日,劍橋大學研究了Facebook 58000個的“贊”來預測非常敏感的用戶個人信息,比如性取向、種族、宗教和政治觀點、人格特質、智慧、幸福、上癮物質、父母婚姻狀況、年齡和性別。根據記者Tom Foremski的觀察研究:“雇主、業主、政府機構、教育機構和私人組織會很方便地得到高度敏感的信息,造成對個人的歧視和懲罰。而且有沒有辦法抗爭它。“

最后,在執法方面,美國警方正在轉向“預測警務”大數據模型,希望借此解決懸案,甚至幫助預防未來犯罪。但是,將警務活動專注于特定的大數據“熱點”檢測,這可能會造成一些社會群體的進一步污名化。盡管預測警務算法明確避免按照種族或性別分類,使用這種系統的實際上會導致警察和社會群體的關系惡化,會被認為缺乏程序正義,是對種族貌相的指責,從而威脅到警方的合法性。

大數據是匿名的,所以它不會侵犯我們的隱私。

雖然許多大數據供應商盡自己所能不對數據集標識個人信息,但是風險仍然很大。手機數據看上去是匿名的,但最近的一項針對150萬歐洲手機用戶的研究表明,只要四個獨立的參考點就足以識別95%的人。簡單地交叉分析公開的數據就能預知個人的社會安全號碼。

但大數據的隱私問題遠遠不止這些。目前,賣給分析公司的醫療數據可能被用來跟蹤您的身份。關于個性化醫學有很多爭議,個性化醫學所希望實現的是藥物等療法將針對個人,根據個人獨有的DNA醫治一個人的身體。這是一個美妙的醫學前景,但它從根本上依賴于對細胞和基因的識別水平,如果使用不當或泄露具有極高的風險。但是,盡管個人健康數據采集技術正在快速成長,利用大數據以提高衛生保健服務依然十分迫切。

大數據在能源上也正在發揮作用,比如智能電網。通過分析大量的能源消耗數據,能改善家庭和企業的能源分布效率。該項目有很大的前景,但也蘊含著巨大的隱私風險。它不僅可以預測我們需要多少能量以及我們什么時候需要,還能分分鐘地知道我們在家中什么位置以及我們在做什么。這包括可以知道,我們什么時候洗澡,我們的晚餐客人什么時候離開,我們什么時候關燈睡覺。

當然,這種高度個人化的大數據是黑客或泄密者的首要目標。維基解密已經成為最近一個時期最重要的大數據發布中心。正如英國離岸金融業的大規模數據泄漏,其他人的個資料也一樣容易受到攻擊,而被公之于眾。

大數據是科學的未來。

這句話是部分正確的,但大數據尚待成長。大數據提供了新的科學道路。除非我們認識并能解決一些大數據在反映人類生活上的固有弱點,我們可能會在作出重大公共政策和商業決策時,基于不正確的假設基礎。

為了解決這個問題,數據科學家開始與社會科學家合作,社會科學家對數據糾正有豐富的經驗:評估數據源、數據收集方法、使用倫理。隨著時間的推移,這意味著尋找新的途徑將大數據與小數據相結合。這遠遠超出了廣告和營銷領域,比如A / B測試(將兩個版本的設計或結果顯示給用戶,看到哪些變量被證明更有效)。相反,新??的混合方法可以釋疑為什么人們做這件事,不僅僅是弄清事情發生的頻率。這意味著社會學分析和深入的人性洞察力,以及信息檢索和機器學習。

科技公司很早就認識到,社會科學家可以幫助他們更深入地了解人們如何以及為什么使用他們的產品,比如施樂公司的帕洛阿爾托研究中心聘請了人類學家露西薩奇曼。下一階段將會是計算機科學家、統計學家和社會科學家之間的更豐富合作,不只是為了測試彼此的工作成果,還能探討根本不同的類型的問題。

每日收集的大量信息,包括Facebook的點擊、GPS數據、醫療處方信息和Netflix隊列等。我們遲早必須確定可以信任的信息以及目的是什么。我們無法逃避的事實是數據從來都不是中性的,它很難匿名。但我們可以得出不同領域的專業知識,以更好地認識偏見、差距和假設,迎接保密性和公平性的新挑戰。

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 织金县| 崇仁县| 宣化县| 临桂县| 金寨县| 辽阳县| 水城县| 拉孜县| 任丘市| 沙雅县| 高唐县| 剑阁县| 南木林县| 博白县| 岱山县| 克拉玛依市| 抚顺市| 保靖县| 宁强县| 大同县| 江山市| 丰县| 肇东市| 竹溪县| 石狮市| 南汇区| 常宁市| 沙河市| 廊坊市| 昭苏县| 开江县| 碌曲县| 吉木乃县| 高陵县| 南宫市| 桂东县| 江华| 东海县| 富阳市| 兴安盟| 福海县|