精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當大數據真的變得更好時

責任編輯:editor005

2014-09-10 11:35:35

摘自:ZDNet至頂網

大數據并不是一把萬能錘子,而每一個問題也不是一個靠錘子就可以解決的釘子。規模非常重要所有的人都認為,一些數據類型和使用案例比能夠帶來新洞察力的數據更有幫助。

大數據并不是一把萬能錘子,而每一個問題也不是一個靠錘子就可以解決的釘子。許多人認為大數據意味著越大越好。人們也常常從各種哲學視角來詮釋“越大越好”這一問題。對此我將這些角度歸納為:

信仰:是指容量更大、速度更快和種類更豐富的數據總會帶來更多洞察力,而這正是大數據分析的核心價值。如果我們無法發現這些洞察力,那是由于我們沒有充分認真地嘗試,或是我們的靈活程度還不夠,或者是我們沒有使用正確的工具和解決方案。

偶像:是指數據的龐大容量本身就是有其價值的,與我們是否能夠從中獲得特殊的洞察力無關。如果我們僅憑其所支持的特定商業應用來評估它們的效用,那么在這方面,我們是與數據科學家們當前的需求是不一致的,數據科學家們的需求是將數據不加分別地存儲到數據湖中,以支持今后的探索工作.

負擔:是指數據的龐大容量未必是好事或壞事,但是一個無法改變的事實是,它們會對現有數據庫的存儲和處理能力帶來極大的壓力,并因此讓(Hadoop等)新平臺成為必需品。如果我們不能跟上這些新數據增長的步伐,那么核心的業務需求將被迫轉向新型數據庫。

機遇:在我看來,這是一個處理大數據的正確解決方案。隨著數據規模上升至新的層次,流動的速度更快,數據的來源和格式不斷增長,這一解決方案將重點放在了更為高效地獲取前所未有的洞察力方面。它沒將大數據作為一種信仰或偶像,因為它知道即便較小的數據規模也能夠持續獲得許多不同的洞察力。它也沒有將數據的規模視為一種負擔,而是視為一種挑戰,這種挑戰能夠通過新的數據庫平臺、工具和實踐加以有效應對。

2013年,我在博客中曾就大數據的核心使用案例展開過討論,但當時只涉及到如上方程式中的“機遇”部分。晚些時候,我發現大數據中“大”這一核心價值源自于能否用增加的內容揭示出所增加的背景環境。在你分析數據以探查其完整意義時,背景環境自然是越多越好。同樣的,當你嘗試著在自己的問題范疇中識別出所有的變量、關系、模式以找到更好的解決方案時,內容也是越多越好。總之,越來越多的內容加上越來越多的背景環境,通常會導致數據也變得越來越多。

大數據的另一個價值在于,它們能夠糾正那些小規模數據所產生的錯誤。曾經有觀察過該問題的人說過,對于數據科學家而言,在訓練集中數據偏少意味著他們更容易受到多個模型風險的影響。首先,數據規模偏小可能會導致用戶忽視關鍵的預測性變量。同時,用戶選擇沒有代表性的樣本導致模型出現偏差的幾率變大。此外,用戶可能會找到一些虛假關系,如果用戶擁有能夠揭示實際發揮作用的基本關系的完整數據,那么他們就能夠識別出這些虛假關系。

規模非常重要

所有的人都認為,一些數據類型和使用案例比能夠帶來新洞察力的數據更有幫助。

我近期偶然看到了一篇名為《大數據的預測模式:越大就越好嗎?》文章,文章對數據的一個特定范疇——稀少的細分行為數據進行了詳細闡述。在這方面,數據規模通常能夠提升預測成績。文章的作者Junqué de Fortuny、Martens和Provost稱:“這類數據集的一個重要問題是它們通常都比較稀少。對于任何給定的實例,絕大多數特征都沒有價值,或是價值沒有表現出來。”

最值得關注的是(作者通過引述豐富的研究來支持他們的論點)(+微信關注網絡世界),這類數據是許多以客戶分析為重點的大數據應用的核心。社交媒體行為數據、Web瀏覽行為數據、移動行為數據、廣告反應行為數據、自然語言行為數據都屬于這類數據。

作者認為,“實際上,對于大多數預測分析型的商業應用,例如金融業和電信業的定向市場營銷、信用評分、損耗管理等應用,用于預測分析的數據都非常相似。這些產品的特點都集中于個人的背景特征、地域特征和心理特征,以及諸如優先購買行為等一些通過統計總結出來的特定行為。”

“更大的行為數據集往往會更好”的關鍵原因非常簡單,作者認為“沒有大量的數據,一些顯著的行為可能就無法被有效地觀察到。”這是因為在零散的數據集中,行為被記錄的人可能只會展示次數有限的行為。但是當你放眼整個人群時,每一種特定類型的行為你可能會觀察到至少一次,或者在特定的環境中觀察到多次。如果數據偏少,那么所觀察的目標和觀察到的行為特征也就會偏少,這將導致你會忽略許多東西。

預測模型所依靠的正是源行為數據集的豐富性。為了在未來的更多場景中預測更為精準,數據規模通常是越大越好。

當越大等同于越模糊時

盡管如此,該文的作者也提到了一些場景。在這些場景中,越大越好的假設不成立,那么我們就不得不使用特定行為特征的預測價值。這時候,權衡取舍就成為了預測行為模型的基礎。

預測模式中每一個增加的行為特征,應該與所做的預測充分地聯系起來,以提升模型的學習收益和預測能力,克服不斷拉大的差異,即過度擬合和預測錯誤,因為這通常會產生更大的特征集。正如該文章作者所說的那樣,“大量不相關的特征只是增加了差異和過擬合的機率,而沒有相應地提升學習到更好模型的機率。”

顯然當“大”妨礙到了獲取預測性洞察力時,越大并非越好。用戶不希望自己的大數據分析努力成為數據規模擴張的犧牲品。數據科學家也必須充分了解應該何時調整數據模型的大小,以適應手中的分析任務。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 霍城县| 喜德县| 瑞金市| 女性| 安远县| 蓬安县| 古丈县| 中山市| 洛阳市| 安国市| 秀山| 安仁县| 延庆县| 上饶市| 曲麻莱县| 长沙县| 陕西省| 土默特左旗| 松滋市| 安西县| 黎城县| 桑植县| 施秉县| 清镇市| 赫章县| 石林| 镇雄县| 天门市| 庐江县| 东海县| 科技| 越西县| 星子县| 塘沽区| 台前县| 陇西县| 车险| 台安县| 克山县| 柳林县| 卢龙县|