精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:人工智能行業動態 → 正文

人工智能和大數據存在什么隱患?

責任編輯:cres |來源:企業網D1Net  2019-09-24 13:24:59 本文摘自:IT168

從數據稀缺到現在有大量的數據,近年來,可用的數據量呈指數級增長,大數據變得無處不在。這是由于數據記錄設備數量的巨大增長,以及這些設備之間通過物聯網連接。似乎每個人都有收集、分析大數據的力量。
 
但是,大數據真的是萬能的嗎?毫無疑問,大數據已經在某些領域產生了至關重要的影響。例如,幾乎每一個成功的人工智能解決方案都涉及大數據處理問題。
 
首先要注意的是,盡管AI目前非常擅長在大型數據集中查找模式和關系,但它仍然不是很智能。計算數字可以有效地識別并發現數據中的細微模式,但不能直接告訴我們這些相關關系中哪些實際上有意義。
 
相關性和因果關系
 
我們都知道“相關性并不意味著因果關系。“然而,人類的大腦天生就會尋找規律,當我們看到曲線傾斜在一起,數據中出現明顯的規律時,我們的大腦就會自動給出規律。”
 
然而,從統計數據來看,我們仍然無法實現這一飛躍。《虛假相關性》(false)一書的作者Tyler Vigen在自己的網站上對此進行了調侃,還有很多例子比如展示冰淇淋是如何明顯地導致許多壞事的,從森林大火到鯊魚襲擊和脊髓灰質炎爆發。
 
看看這些情節,人們可能會爭辯說,我們很可能早就應該禁止冰淇淋了。 而且,實際上,在1940年代的小兒麻痹癥例子中,公共衛生專家建議人們停止吃冰淇淋作為“反政治飲食”的一部分。幸運的是,他們最終意識到小兒麻痹癥暴發與冰淇淋消費之間的相關性是“完全是由于小兒麻痹癥的爆發在夏季最為普遍”。
 
在統計中,虛假關系或虛假相關性是一種數學關系,其中兩個或多個事件或變量相關聯,但由于某種偶然的或某些第三個未見因素的存在而因果相關(稱為“常見響應”變量”、“混雜因素”或“潛伏變量”)。這樣的“潛伏變量”的例子可以是冰淇淋銷量與鯊魚襲擊之間的相關性(雖然冰淇淋銷量的增長不會導致鯊魚襲擊人們)。但是,這兩個數字之間有一個共同的環節,即溫度。較高的溫度導致更多的人購買冰淇淋以及更多的人去游泳。因此,這個“潛變量”確實是表觀相關性的原因。幸運的是,我們已經學會將因果關系與因果關系分開。而且,在炎熱的夏日,我們仍然可以享受冰淇淋,而不必擔心小兒麻痹癥爆發和鯊魚襲擊!
 
相關性的力量和局限性
 
有了足夠的數據,將會發現計算能力和統計算法的模式。但并不是所有的模式都有意義,因為虛假模式的數量很容易超過有意義的模式。將大數據與算法結合起來,如果能正確地應用于解決問題,將是一個非常有用的工具。然而,沒有科學家會認為你可以通過單獨處理數據來解決這個問題,無論統計分析是多么強大,您應該始終基于對要解決的問題的基本理解來進行分析。
 
數據科學是科學的終結嗎?
 
2008年6月,《連線》(Wired)雜志前主編C. Anderson寫了一篇頗具煽動性的文章,題為《理論的終結:數據洪流使科學方法過時》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相關性取代因果關系,即使沒有連貫的模型和統一的理論,科學也能進步。”
 
這種方法的強度和通用性依賴于數據量:數據越多,基于計算發現的相關性的方法就越強大和有效。我們可以簡單地把數字輸入計算機,讓統計算法自動發現有趣的模式和見解。
 
但是,這種簡化的分析方法也存在一些潛在的陷阱,可以通過John Poppelaars在博客上找到的示例很好地說明 :
 
假設我們要為某些變量Y創建一個預測模型。例如公司的股價、在線廣告的點擊率或下周的天氣。接下來,我們收集所有可以使用的數據,并將其放入統計過程中,以找到Y的最佳預測模型。常見的過程是首先使用所有變量對模型進行估計,篩選出不重要的變量,然后使用所選的變量子集重新估算模型,然后重復此過程,直到找到重要的模型為止。
 
但是,Anderson提出的分析方法存在一些嚴重的缺陷。我選擇了一個實例,從0到1的均勻分布中抽取100個樣本,為Y創建了一組數據點,所以它是隨機噪聲。接下來,我通過從0到1之間的均勻分布中抽取100個樣本,創建了一組50個解釋變量X(I)。因此,所有50個解釋變量也是隨機噪聲。我使用所有的X(I)變量來預測y,估計一個線性回歸模型。因為沒有任何相關的東西(所有的均布和自變量),所以期望R²(0),但實際上不是。結果是0。5。對于基于隨機噪聲的回歸來說還不錯!幸運的是,這個模型并不重要。逐步剔除不顯著的變量,重新估計模型。重復這個過程,直到找到一個重要的模型。經過幾個步驟后,發現一個顯著性模型,調整后的R平方為0.4,7個變量的顯著性水平至少為99%。再次,我們是在回歸隨機噪聲,它絕對沒有關系,但我們仍然找到一個有7個重要參數的顯著模型。如果我們只是將數據輸入統計算法來尋找模式,就會出現這種情況。
 
數據集越大,噪聲越強
 
最近的研究證明,隨著數據集的增長,它們必定包含任意相關性。這些相關性只是由于數據的大小而出現,這表明,許多相關性都是虛假的。不幸的是,很多信息往往表面表現得很少。
 
這是處理多維數據的應用程序中的主要問題。舉例來說,假設您從一家工廠的數千個傳感器中收集傳感器數據,然后挖掘這些數據以獲取模式以優化性能。在這種情況下,您很容易被數據表現的表象所迷惑,而不是真正的運營績效指標。無論從財務上還是在工廠的安全運行方面,這都可能是一個壞消息。
 
添加數據和添加信息
 
作為數據科學家,我們可能經常會說,改善人工智能模型的最佳解決方案是“添加更多數據”。然而,僅僅“添加更多數據”就能提高模型性能嗎?不是這樣的。我們應該關注的是“添加更多的信息”。“添加數據”和“添加信息”之間的區別是至關重要的:添加更多的數據并不等于添加更多的信息(至少是有用和正確的信息)。相反,由于盲目地添加越來越多的數據,我們有可能添加包含錯誤信息的數據,這些錯誤信息會相應地降低模型的性能。隨著數據的大量訪問以及處理數據的計算能力,考慮這一點變得越來越重要。
 
結論
 
那么,上述挑戰是否應該阻止您采用以數據為依據的決策? 不,數據驅動的決策將繼續存在。隨著我們獲得更多有關如何最佳利用數據和信息以提高績效的知識,這些將變得越來越有價值。
 
但是要意識到,要使方案成功,不僅需要硬件和大量數據,大數據和計算能力也是重要的組成部分。而且,您應該了解連接數據的基本機制。數據不能說明一切,是人類給數字賦予了含義。數據的數量、種類是無法更改的。

關鍵字:人工智能

本文摘自:IT168

x 人工智能和大數據存在什么隱患? 掃一掃
分享本文到朋友圈
當前位置:人工智能行業動態 → 正文

人工智能和大數據存在什么隱患?

責任編輯:cres |來源:企業網D1Net  2019-09-24 13:24:59 本文摘自:IT168

從數據稀缺到現在有大量的數據,近年來,可用的數據量呈指數級增長,大數據變得無處不在。這是由于數據記錄設備數量的巨大增長,以及這些設備之間通過物聯網連接。似乎每個人都有收集、分析大數據的力量。
 
但是,大數據真的是萬能的嗎?毫無疑問,大數據已經在某些領域產生了至關重要的影響。例如,幾乎每一個成功的人工智能解決方案都涉及大數據處理問題。
 
首先要注意的是,盡管AI目前非常擅長在大型數據集中查找模式和關系,但它仍然不是很智能。計算數字可以有效地識別并發現數據中的細微模式,但不能直接告訴我們這些相關關系中哪些實際上有意義。
 
相關性和因果關系
 
我們都知道“相關性并不意味著因果關系。“然而,人類的大腦天生就會尋找規律,當我們看到曲線傾斜在一起,數據中出現明顯的規律時,我們的大腦就會自動給出規律。”
 
然而,從統計數據來看,我們仍然無法實現這一飛躍。《虛假相關性》(false)一書的作者Tyler Vigen在自己的網站上對此進行了調侃,還有很多例子比如展示冰淇淋是如何明顯地導致許多壞事的,從森林大火到鯊魚襲擊和脊髓灰質炎爆發。
 
看看這些情節,人們可能會爭辯說,我們很可能早就應該禁止冰淇淋了。 而且,實際上,在1940年代的小兒麻痹癥例子中,公共衛生專家建議人們停止吃冰淇淋作為“反政治飲食”的一部分。幸運的是,他們最終意識到小兒麻痹癥暴發與冰淇淋消費之間的相關性是“完全是由于小兒麻痹癥的爆發在夏季最為普遍”。
 
在統計中,虛假關系或虛假相關性是一種數學關系,其中兩個或多個事件或變量相關聯,但由于某種偶然的或某些第三個未見因素的存在而因果相關(稱為“常見響應”變量”、“混雜因素”或“潛伏變量”)。這樣的“潛伏變量”的例子可以是冰淇淋銷量與鯊魚襲擊之間的相關性(雖然冰淇淋銷量的增長不會導致鯊魚襲擊人們)。但是,這兩個數字之間有一個共同的環節,即溫度。較高的溫度導致更多的人購買冰淇淋以及更多的人去游泳。因此,這個“潛變量”確實是表觀相關性的原因。幸運的是,我們已經學會將因果關系與因果關系分開。而且,在炎熱的夏日,我們仍然可以享受冰淇淋,而不必擔心小兒麻痹癥爆發和鯊魚襲擊!
 
相關性的力量和局限性
 
有了足夠的數據,將會發現計算能力和統計算法的模式。但并不是所有的模式都有意義,因為虛假模式的數量很容易超過有意義的模式。將大數據與算法結合起來,如果能正確地應用于解決問題,將是一個非常有用的工具。然而,沒有科學家會認為你可以通過單獨處理數據來解決這個問題,無論統計分析是多么強大,您應該始終基于對要解決的問題的基本理解來進行分析。
 
數據科學是科學的終結嗎?
 
2008年6月,《連線》(Wired)雜志前主編C. Anderson寫了一篇頗具煽動性的文章,題為《理論的終結:數據洪流使科學方法過時》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相關性取代因果關系,即使沒有連貫的模型和統一的理論,科學也能進步。”
 
這種方法的強度和通用性依賴于數據量:數據越多,基于計算發現的相關性的方法就越強大和有效。我們可以簡單地把數字輸入計算機,讓統計算法自動發現有趣的模式和見解。
 
但是,這種簡化的分析方法也存在一些潛在的陷阱,可以通過John Poppelaars在博客上找到的示例很好地說明 :
 
假設我們要為某些變量Y創建一個預測模型。例如公司的股價、在線廣告的點擊率或下周的天氣。接下來,我們收集所有可以使用的數據,并將其放入統計過程中,以找到Y的最佳預測模型。常見的過程是首先使用所有變量對模型進行估計,篩選出不重要的變量,然后使用所選的變量子集重新估算模型,然后重復此過程,直到找到重要的模型為止。
 
但是,Anderson提出的分析方法存在一些嚴重的缺陷。我選擇了一個實例,從0到1的均勻分布中抽取100個樣本,為Y創建了一組數據點,所以它是隨機噪聲。接下來,我通過從0到1之間的均勻分布中抽取100個樣本,創建了一組50個解釋變量X(I)。因此,所有50個解釋變量也是隨機噪聲。我使用所有的X(I)變量來預測y,估計一個線性回歸模型。因為沒有任何相關的東西(所有的均布和自變量),所以期望R²(0),但實際上不是。結果是0。5。對于基于隨機噪聲的回歸來說還不錯!幸運的是,這個模型并不重要。逐步剔除不顯著的變量,重新估計模型。重復這個過程,直到找到一個重要的模型。經過幾個步驟后,發現一個顯著性模型,調整后的R平方為0.4,7個變量的顯著性水平至少為99%。再次,我們是在回歸隨機噪聲,它絕對沒有關系,但我們仍然找到一個有7個重要參數的顯著模型。如果我們只是將數據輸入統計算法來尋找模式,就會出現這種情況。
 
數據集越大,噪聲越強
 
最近的研究證明,隨著數據集的增長,它們必定包含任意相關性。這些相關性只是由于數據的大小而出現,這表明,許多相關性都是虛假的。不幸的是,很多信息往往表面表現得很少。
 
這是處理多維數據的應用程序中的主要問題。舉例來說,假設您從一家工廠的數千個傳感器中收集傳感器數據,然后挖掘這些數據以獲取模式以優化性能。在這種情況下,您很容易被數據表現的表象所迷惑,而不是真正的運營績效指標。無論從財務上還是在工廠的安全運行方面,這都可能是一個壞消息。
 
添加數據和添加信息
 
作為數據科學家,我們可能經常會說,改善人工智能模型的最佳解決方案是“添加更多數據”。然而,僅僅“添加更多數據”就能提高模型性能嗎?不是這樣的。我們應該關注的是“添加更多的信息”。“添加數據”和“添加信息”之間的區別是至關重要的:添加更多的數據并不等于添加更多的信息(至少是有用和正確的信息)。相反,由于盲目地添加越來越多的數據,我們有可能添加包含錯誤信息的數據,這些錯誤信息會相應地降低模型的性能。隨著數據的大量訪問以及處理數據的計算能力,考慮這一點變得越來越重要。
 
結論
 
那么,上述挑戰是否應該阻止您采用以數據為依據的決策? 不,數據驅動的決策將繼續存在。隨著我們獲得更多有關如何最佳利用數據和信息以提高績效的知識,這些將變得越來越有價值。
 
但是要意識到,要使方案成功,不僅需要硬件和大量數據,大數據和計算能力也是重要的組成部分。而且,您應該了解連接數據的基本機制。數據不能說明一切,是人類給數字賦予了含義。數據的數量、種類是無法更改的。

關鍵字:人工智能

本文摘自:IT168

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 茶陵县| 积石山| 河西区| 灵武市| 三门峡市| 仁怀市| 荔波县| 温宿县| 元氏县| 玉树县| 咸丰县| 永定县| 乡城县| 太原市| 临沭县| 乐山市| 浑源县| 黎城县| 焉耆| 会理县| 苏州市| 安丘市| 江永县| 鲁山县| 潜山县| 灵丘县| 景洪市| 六安市| 清徐县| 恩施市| 巴彦淖尔市| 都匀市| 巴彦县| 巴南区| 将乐县| 淅川县| 社旗县| 长丰县| 肇东市| 同江市| 房山区|