精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

人們將面臨大數據無法進行預測分析的挑戰

責任編輯:editor007

2017-01-13 22:26:45

摘自:網絡大數據

摘要:如今,大多數人認為在大數據時代,人們總是有足夠多的信息來建立強大的分析,然而事實并非如此。如今,大多數人認為在大數據時代,人們總是有足夠多的信息來建立強大的分析,然而事實并非如此。

如今,大多數人認為在大數據時代,人們總是有足夠多的信息來建立強大的分析,然而事實并非如此。在某些情況下,即便是大量的數據也仍然不支持基本預測的正常進行。很多時候,我們并沒有太多可以做到的事情,除了承認事實和堅持基本知識。這是大數據不能被用來預測的挑戰,似乎也是一個不可能的悖論,但是卻引來人們探討為什么會是這樣。

情景1:大數據,小宇宙

舉一個例子,當事物很少卻有大量的數據時,很難找到有意義的模式。以一家航空公司的制造商為例,如今,每架飛機每小時運行產生上千兆字節的數據。諸如發動機在不同條件下操作,分析這些操作數據有很多好處。然而這對于一些分析行為來說可能很困難,如預測性維護。這是為什么?

人們意識到,即使是最大的飛機制造商,每年也只能生產出幾百架飛機。在考慮不同模型的時候,一年中可能只有幾十個模型被生產出來??v使飛機全部裝滿傳感器,也很難開發有意義的預測部件故障模型。為什么?因為只有幾十或幾百架飛機,樣品的數量太小。

特別是對于新飛機來說,這種情況還會加劇一些問題的出現(例如發動機或發動機部件之類的故障率較低)。因此,盡管可以在幾年的操作中收集PB的數據,但是可能沒有足夠的飛機來創建足夠大的事件池,從而構建真正有效的預測模型。當然,人們可以監測數據,尋找支持調查或干預的異常模式,但是這不是一個預測模型。

情景2:大數據,大宇宙,令人難以置信的罕見事件

還有其它情況,那就是有大量的人或事物需要分析大量的數據。然而,當事件非常罕見時,仍然可能遇到一種情況,即沒有足夠的樣本來構建真正有效的預測模型。這并不是說,人們在分析數據和理解行為的各個方面沒有很多價值。它只是說,有可能不能建立有效的預測模型。

讓我們考慮一下計算機芯片的生產情況。全球每年產生數億甚至數十億片芯片,并且其速度在不斷加快。幾十年前,一千個或一萬個的數量級缺陷可能是可以接受的。對于當今的芯片產品,其缺陷可能需要更接近百萬級。曾經有客戶提出,汽車行業面臨著壓力,需要將芯片缺陷率降低到十億分之一或更低。這是為什么?主要是因為如果實現這種低錯誤率,并且人們可以假設導致有缺陷芯片存在的原因,則對于任何特定的一組原因,其發生任何缺陷的實例會變少,人們可能沒有足夠的樣本來分析,但能夠產生良好的模型以預測這些失敗可能發生的時間和地點。人們考慮到芯片技術將隨著時間的推移而過時,在短短幾年內被更新的產品所替代,因此,這可能是一個持續時間比較久的問題。

不要絕望,做好準備

請記住,在這里提出的問題并不是什么規則,而只是樣本。然而,隨著人們收集數據的來源越來越多,企業開始考慮用越來越多的因素來分析業務,這些異常樣本肯定會出現在組織內部。重要的是,人們只需要關注一個非常小的宇宙來分析,或者通過一個令人難以置信的稀有事件來分析。更糟糕的是,這種罕見事件是小宇宙中的。假設只考慮數據與業務問題相關的情況,而那些不相關的數據將永遠不會增加價值,無論其數量多么大或多么小。

當人們不確定自己的數據是否是有效預測時,請確保在用于開發數據的復雜分析之前投入更多精力,其評估可能是可行的。在某些情況下,人們可能需要解決基本分析問題。然而,重要的是要記住,這種情況應該比沒有任何數據來分析更好。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 南京市| 隆德县| 浦县| 高雄县| 宁津县| 阿克陶县| 福州市| 平舆县| 海丰县| 资阳市| 安顺市| 汝城县| 新宁县| 罗源县| 工布江达县| 邢台市| 商南县| 扬中市| 米泉市| 滁州市| 新竹县| 进贤县| 贵港市| 塔城市| 买车| 绥滨县| 福安市| 青田县| 五大连池市| 沙坪坝区| 平南县| 青冈县| 博野县| 广东省| 绥芬河市| 津市市| 平谷区| 连云港市| 齐河县| 康马县| 专栏|