精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

數據管理的11個秘密

責任編輯:cres 作者:Peter Wayner |來源:企業網D1Net  2022-07-07 10:22:00 原創文章 企業網D1Net

有人稱數據為“新石油”,也有人稱其為“新黃金”。拋去這些比喻的合理性不論,毫無疑問,對于任何希望兌現數據驅動決策承諾的企業來說,組織和分析數據都是一項至關重要的工作。
 
為此,可靠的數據管理策略便成為關鍵所在。這包括數據治理、數據運營、數據倉庫、數據工程、數據分析、數據科學等,數據管理如果做得好,可以為每個行業的企業提供競爭優勢。
 
好消息是,基于幾十年來發展的合理原則,數據管理的許多方面都得到了很好的理解。例如,它們可能不易應用或理解,但多虧了基準科學家和數學家,公司現在擁有一系列用于分析數據和得出結論的回歸框架(logistical frameworks)。更重要的是,我們還有統計模型,可以繪制誤差線來描述我們的分析范圍。
 
不過,盡管研究和推動數據科學的各類學科帶來了諸多好處,但有時我們仍然摸不著頭腦。企業經常會遇到各種難題:一些悖論與收集和組織如此多數據的實際挑戰有關;一些涉及哲學問題,測試我們推理抽象性質的能力;更有甚者圍繞收集大量數據的隱私問題正日益加劇。
 
以下是數據管理的11個秘密:
 
1. 非結構化數據難以分析
 
企業中有80%-90%的數據為非結構化數據,隨著數字化轉型逐漸步入深水區,非結構化數據量正在飛速增長。這些數據以文檔、圖片、音視頻等形式散落在企業內部,由于部門、應用、架構、多云環境等原因形成非結構化數據孤島,難以進行共享和利用,挖掘出內容價值,嚴重阻礙企業的數字化轉型進程。
 
舉個例子,我有一個朋友渴望使用人工智能來搜索其銀行呼叫中心工作人員記錄的文字,因為這些文字可能包含有助于改善銀行貸款和服務的見解。但是,這些筆記是由數百名不同的人記錄的,他們對于如何寫下給定電話的內容有不同的想法。此外,每個工作人員也有不同的寫作風格和能力。有些人根本沒有記錄下太多信息;有些人則記錄了太多自己解讀的內容。這些文本本身就沒有太多結構可言,當你有成百上千名員工幾十年來記錄的一堆文字時,任何結構都可能變得更弱。
 
2. 即便是結構化數據也常常是非結構化的
 
優秀的科學家和數據庫管理員通過指定每個字段的類型和結構來指導數據庫。有時,以更多結構的名義,他們將給定字段中的值限制為特定范圍內的整數或預定義的選擇。即便如此,填寫數據庫存儲表格的人還是會想方設法地增加難度。當他們認為某個問題不適用時,有時以字段為空表示;其他人則會輸入破折號或首字母“n.a.”來表示。優秀的開發人員可以通過驗證發現其中一些問題。優秀的數據科學家還可以通過清理來減少這種不確定性。但令人抓狂的是,即使是最結構化的表格也有可疑條目——這些可疑條目可能會在分析中引入未知數甚至錯誤。
 
3. 數據模式(schema)要么太嚴格要么太寬松
 
無論數據團隊如何努力闡明模式約束(schema constraint),用于定義各種數據字段中值的最終模式還是要么太嚴格,要么太寬松。如果數據團隊添加了嚴格的約束,用戶會抱怨他們的答案在有限的可接受值列表中找不到。如果數據模式過于寬松,用戶可以添加幾乎沒有一致性的奇怪值。
 
4. 數據法非常嚴格
 
關于隱私和數據保護的法律很強大,而且只會越來越強大。在GDPR、HIPPA等十多個法規的約束下,收集數據可能非常困難,而且一旦遭遇黑客入侵將會更加危險。在許多情況下,請律師的錢會比雇傭程序員或數據科學家的錢多得多。這些令人頭疼的問題就是一些公司會在處理完數據后立即將其處理掉的原因所在。
 
5. 數據清洗成本巨大
 
數據清洗也叫數據清理,是指從數據庫或數據表中更正和刪除不準確數據記錄的過程。廣義地說,數據清洗包括識別和替換不完整、不準確、不相關或有問題的數據和記錄。
 
許多數據科學家承認,90%的工作只是收集數據,將其以一致的形式呈現,并處理無窮無盡的漏洞或錯誤。擁有數據的人總是會說,“一切都在CSV(逗號分隔值,一種通用的、相對簡單的文件格式)中,可以隨時使用。”但他們沒有提到空白字段或錯誤描述。相較于在R或Python中啟動例程以實際執行統計分析,清洗用于數據科學項目的數據所需的時間要高達10倍之多。
 
6. 用戶越來越懷疑你的數據實踐
 
最終用戶和客戶對公司的數據管理實踐越來越懷疑,人工智能算法及其使用只會加劇恐懼,讓越來越多的人對捕獲其數據的行為深感不安。這些擔憂正在推動監管進程,并經常使公司陷入公共關系危機。不僅如此,人們還故意用虛假值或錯誤答案干擾數據收集。有時一半的工作是與惡意合作伙伴和客戶打交道。
 
7. 整合外部數據可以獲得回報,也會帶來災難
 
公司擁有所收集數據的所有權是一回事,但是他們想要將自己的本地信息與第三方數據以及互聯網上存在的海量個性化信息整合起來又是另一回事。一些工具公開承諾會收集每個客戶的數據,以便在每次購買時建立個性化檔案。沒錯,它們正在使用與追蹤恐怖分子的間諜機構相同的詞來跟蹤你的快餐購買和信用評分。難怪人們會感到擔心和恐慌!
 
8. 監管機構正在打擊數據使用
 
沒人知道精明的數據分析何時會越界,但一旦越界,監管機構就會出動。在最近發生在加拿大的一個案例中,政府調查發現一些甜甜圈店會跟蹤也在競爭對手那里購物的顧客。據最新發布的一份新聞稿稱,“調查發現,Tim Hortons與一家美國第三方定位服務供應商的合同包含的語言非常模糊和寬容,以至于允許該公司為自己的目的出售‘去識別化’的定位數據。”為了什么?賣更多的甜甜圈?無論如何,事實證明監管機構正越來越關注涉及個人信息的任何事情。
 
9. 你的數據方案可能不值得
 
我們想象一個出色的算法可以讓一切變得更加高效和有利可圖。有時這樣的算法實際上是可能的,但價格也可能太高。例如,消費者(甚至公司)正越來越多地質疑來自精心設計的數據管理方案的定向營銷的價值。有些人指出,我們經常看到已購買的東西的廣告,因為廣告跟蹤器還沒有發現我們已經不需要它了。同樣的命運經常會降臨到其他計劃上。有時,嚴格的數據分析會確定表現最差的工廠,但這無所謂,因為該公司簽署了一份為期30年的大樓租約。公司需要為這種可能性做好準備,即所有數據科學天才可能會產生一個不可接受的答案。
 
10. 最后,數據決策通常只是主觀判斷
 
數字可以提供足夠的精確度,但人類如何解釋它們往往是最重要的。在所有的數據分析和人工智能操作后,大多數算法都需要決定某個值是超過還是低于閾值。有時,科學家希望p值低于0.05;有時,警察會為超速20%的汽車開出罰單。這些閾值通常只是任意值。對于可以應用于數據的所有科學和數學,許多“數據驅動”流程中的灰色區域比我們想象的要多,盡管公司可能在其數據管理實踐中投入了所有資源,但決策更多的還是取決于直覺和主觀判斷。
 
11. 數據存儲成本呈爆炸式增長
 
磁盤驅動器的容量越來越大,且每TB的價格不斷下降,但程序員收集數據的速度明顯快于價格下降的速度。來自物聯網(IoT)的設備不斷上傳數據,用戶希望能夠永遠瀏覽這些字節的豐富集合。與此同時,合規官員和監管機構不斷要求提供越來越多的數據,以防將來進行審計。如果有人真的看過其中的一些數據,那將是一回事,但我們一天只有這么多時間。實際再次訪問的數據百分比越來越低。然而,存儲擴展包的價格一直在上漲。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:數據管理

原創文章 企業網D1Net

x 數據管理的11個秘密 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

數據管理的11個秘密

責任編輯:cres 作者:Peter Wayner |來源:企業網D1Net  2022-07-07 10:22:00 原創文章 企業網D1Net

有人稱數據為“新石油”,也有人稱其為“新黃金”。拋去這些比喻的合理性不論,毫無疑問,對于任何希望兌現數據驅動決策承諾的企業來說,組織和分析數據都是一項至關重要的工作。
 
為此,可靠的數據管理策略便成為關鍵所在。這包括數據治理、數據運營、數據倉庫、數據工程、數據分析、數據科學等,數據管理如果做得好,可以為每個行業的企業提供競爭優勢。
 
好消息是,基于幾十年來發展的合理原則,數據管理的許多方面都得到了很好的理解。例如,它們可能不易應用或理解,但多虧了基準科學家和數學家,公司現在擁有一系列用于分析數據和得出結論的回歸框架(logistical frameworks)。更重要的是,我們還有統計模型,可以繪制誤差線來描述我們的分析范圍。
 
不過,盡管研究和推動數據科學的各類學科帶來了諸多好處,但有時我們仍然摸不著頭腦。企業經常會遇到各種難題:一些悖論與收集和組織如此多數據的實際挑戰有關;一些涉及哲學問題,測試我們推理抽象性質的能力;更有甚者圍繞收集大量數據的隱私問題正日益加劇。
 
以下是數據管理的11個秘密:
 
1. 非結構化數據難以分析
 
企業中有80%-90%的數據為非結構化數據,隨著數字化轉型逐漸步入深水區,非結構化數據量正在飛速增長。這些數據以文檔、圖片、音視頻等形式散落在企業內部,由于部門、應用、架構、多云環境等原因形成非結構化數據孤島,難以進行共享和利用,挖掘出內容價值,嚴重阻礙企業的數字化轉型進程。
 
舉個例子,我有一個朋友渴望使用人工智能來搜索其銀行呼叫中心工作人員記錄的文字,因為這些文字可能包含有助于改善銀行貸款和服務的見解。但是,這些筆記是由數百名不同的人記錄的,他們對于如何寫下給定電話的內容有不同的想法。此外,每個工作人員也有不同的寫作風格和能力。有些人根本沒有記錄下太多信息;有些人則記錄了太多自己解讀的內容。這些文本本身就沒有太多結構可言,當你有成百上千名員工幾十年來記錄的一堆文字時,任何結構都可能變得更弱。
 
2. 即便是結構化數據也常常是非結構化的
 
優秀的科學家和數據庫管理員通過指定每個字段的類型和結構來指導數據庫。有時,以更多結構的名義,他們將給定字段中的值限制為特定范圍內的整數或預定義的選擇。即便如此,填寫數據庫存儲表格的人還是會想方設法地增加難度。當他們認為某個問題不適用時,有時以字段為空表示;其他人則會輸入破折號或首字母“n.a.”來表示。優秀的開發人員可以通過驗證發現其中一些問題。優秀的數據科學家還可以通過清理來減少這種不確定性。但令人抓狂的是,即使是最結構化的表格也有可疑條目——這些可疑條目可能會在分析中引入未知數甚至錯誤。
 
3. 數據模式(schema)要么太嚴格要么太寬松
 
無論數據團隊如何努力闡明模式約束(schema constraint),用于定義各種數據字段中值的最終模式還是要么太嚴格,要么太寬松。如果數據團隊添加了嚴格的約束,用戶會抱怨他們的答案在有限的可接受值列表中找不到。如果數據模式過于寬松,用戶可以添加幾乎沒有一致性的奇怪值。
 
4. 數據法非常嚴格
 
關于隱私和數據保護的法律很強大,而且只會越來越強大。在GDPR、HIPPA等十多個法規的約束下,收集數據可能非常困難,而且一旦遭遇黑客入侵將會更加危險。在許多情況下,請律師的錢會比雇傭程序員或數據科學家的錢多得多。這些令人頭疼的問題就是一些公司會在處理完數據后立即將其處理掉的原因所在。
 
5. 數據清洗成本巨大
 
數據清洗也叫數據清理,是指從數據庫或數據表中更正和刪除不準確數據記錄的過程。廣義地說,數據清洗包括識別和替換不完整、不準確、不相關或有問題的數據和記錄。
 
許多數據科學家承認,90%的工作只是收集數據,將其以一致的形式呈現,并處理無窮無盡的漏洞或錯誤。擁有數據的人總是會說,“一切都在CSV(逗號分隔值,一種通用的、相對簡單的文件格式)中,可以隨時使用。”但他們沒有提到空白字段或錯誤描述。相較于在R或Python中啟動例程以實際執行統計分析,清洗用于數據科學項目的數據所需的時間要高達10倍之多。
 
6. 用戶越來越懷疑你的數據實踐
 
最終用戶和客戶對公司的數據管理實踐越來越懷疑,人工智能算法及其使用只會加劇恐懼,讓越來越多的人對捕獲其數據的行為深感不安。這些擔憂正在推動監管進程,并經常使公司陷入公共關系危機。不僅如此,人們還故意用虛假值或錯誤答案干擾數據收集。有時一半的工作是與惡意合作伙伴和客戶打交道。
 
7. 整合外部數據可以獲得回報,也會帶來災難
 
公司擁有所收集數據的所有權是一回事,但是他們想要將自己的本地信息與第三方數據以及互聯網上存在的海量個性化信息整合起來又是另一回事。一些工具公開承諾會收集每個客戶的數據,以便在每次購買時建立個性化檔案。沒錯,它們正在使用與追蹤恐怖分子的間諜機構相同的詞來跟蹤你的快餐購買和信用評分。難怪人們會感到擔心和恐慌!
 
8. 監管機構正在打擊數據使用
 
沒人知道精明的數據分析何時會越界,但一旦越界,監管機構就會出動。在最近發生在加拿大的一個案例中,政府調查發現一些甜甜圈店會跟蹤也在競爭對手那里購物的顧客。據最新發布的一份新聞稿稱,“調查發現,Tim Hortons與一家美國第三方定位服務供應商的合同包含的語言非常模糊和寬容,以至于允許該公司為自己的目的出售‘去識別化’的定位數據。”為了什么?賣更多的甜甜圈?無論如何,事實證明監管機構正越來越關注涉及個人信息的任何事情。
 
9. 你的數據方案可能不值得
 
我們想象一個出色的算法可以讓一切變得更加高效和有利可圖。有時這樣的算法實際上是可能的,但價格也可能太高。例如,消費者(甚至公司)正越來越多地質疑來自精心設計的數據管理方案的定向營銷的價值。有些人指出,我們經常看到已購買的東西的廣告,因為廣告跟蹤器還沒有發現我們已經不需要它了。同樣的命運經常會降臨到其他計劃上。有時,嚴格的數據分析會確定表現最差的工廠,但這無所謂,因為該公司簽署了一份為期30年的大樓租約。公司需要為這種可能性做好準備,即所有數據科學天才可能會產生一個不可接受的答案。
 
10. 最后,數據決策通常只是主觀判斷
 
數字可以提供足夠的精確度,但人類如何解釋它們往往是最重要的。在所有的數據分析和人工智能操作后,大多數算法都需要決定某個值是超過還是低于閾值。有時,科學家希望p值低于0.05;有時,警察會為超速20%的汽車開出罰單。這些閾值通常只是任意值。對于可以應用于數據的所有科學和數學,許多“數據驅動”流程中的灰色區域比我們想象的要多,盡管公司可能在其數據管理實踐中投入了所有資源,但決策更多的還是取決于直覺和主觀判斷。
 
11. 數據存儲成本呈爆炸式增長
 
磁盤驅動器的容量越來越大,且每TB的價格不斷下降,但程序員收集數據的速度明顯快于價格下降的速度。來自物聯網(IoT)的設備不斷上傳數據,用戶希望能夠永遠瀏覽這些字節的豐富集合。與此同時,合規官員和監管機構不斷要求提供越來越多的數據,以防將來進行審計。如果有人真的看過其中的一些數據,那將是一回事,但我們一天只有這么多時間。實際再次訪問的數據百分比越來越低。然而,存儲擴展包的價格一直在上漲。
 
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:數據管理

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 兖州市| 阿尔山市| 若尔盖县| 卓资县| 桃园市| 南和县| 乌兰浩特市| 怀仁县| 莆田市| 阳朔县| 淳化县| 裕民县| 景宁| 佛坪县| 洪洞县| 通山县| 都昌县| 交城县| 华坪县| 石首市| 博爱县| 高雄县| 靖江市| 盈江县| 通榆县| 黄冈市| 昆明市| 静海县| 邹平县| 台东市| 金寨县| 洛阳市| 文登市| 伊川县| 松滋市| 常宁市| 宝应县| 彭山县| 漳浦县| 大姚县| 张北县|