精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據數據庫 → 正文

如何建立有價值的數據庫?

責任編輯:editor04 作者:俊世太保 |來源:企業網D1Net  2015-04-21 08:40:00 本文摘自:百度百家

摘要 : 數據是非常有價值的,它有助于創造優品、形成一個進入壁壘,甚至可以直接貨幣化。

數據是非常有價值的,它有助于創造優品、形成一個進入壁壘,甚至可以直接貨幣化。本篇文章將想分析「公司利用數據的價值」,將有三部分組成。

在上一篇文章中,已經談了關于「如何把數據轉化成競爭優勢?」,而在這篇文章中,我將討論建立有價值數據庫的技巧和策略。

一個有價值的數據庫的屬性

你應該怎么努力才能讓你積累的大數據具有優勢?下面是寶貴的數據庫的關鍵屬性:

一個理想的數據庫是很難讓別人從頭開始構建。

一個理想的數據庫包括全面,準確,最新的數據。

一個理想的數據庫理應是有價值的。例如,餐館菜單的數據庫,將是非常有價值的,同時鞋碼的數據庫會不值錢。

一個理想的數據庫的增長的越多價值也就越多,也就是說,該數據需要有正網絡效應。

數據源

好吧,你讀了第一篇文章在這個系列,你就相信數據是偉大的,你想多了吧。但是你怎么弄的?下面是一些經過驗證的方法:

直接收集。傳感器網絡的形式,調查,訪談等都是很好的方式,直接收集數據。

眾包。公司如Glassdoor,Yelp和Waze主要通過用戶貢獻獲取數據。眾包是直接收集的子集,但有一個值得注意的點,因為用戶通常不知道他們正在幫助公司建立一個數據資產。例如,Yelp的用戶寫評語,因為他們想表達他們的意見,但這些評論還幫助建立了Yelp的的數據集。

付費眾包。您可以支付員工(通常這些都是外包員工)或機器人進行數據收集,可能很難收集沒有人類的幫助。

使用工具產生的「數據廢氣」。一切與眾包技術密切相關的都可以說是在利用「數據廢氣」。雖然眾包往往是一個商業模式的核心部分(Yelp必須要依賴用戶寫評語),「數據廢氣」是正常使用工具時產生的數據副產品。

例如,亞馬遜的主要目的是銷售產品,但它收集了大量的用戶行為和商店數據。用戶搜索什么?結果他們點擊了什么?他們最終購買了什么?所有這些數據都有助于亞馬遜建立價格彈性的內部模型,其中可以促成一些產品組合購買,并針對每個用戶提供個性化的建議。

需要注意的是,幾乎任何工具可以產生有價值的「數據廢氣」。一個購物網站積累的數據來自搜索和購買,制藥公司的銷售數據很多都是來自藥師的工具。所有這些數據可以用來為用戶做出更好的產品,有時這些數據甚至可以直接賣給第三方,。

當懷疑一些數據塊它是否值得保存的,盡量選擇繼續和保存。因為你以后可以隨時刪除它,如果它不能證明是有用的,但你會驚奇地發現,大量的數據最終被有價值的,如果你只是得到足夠它。

捆綁許多現有的數據集在一起。公司如事實,Vurb和DataFox都結合多個數據源在一個地方。事實上,谷歌搜索可以被認為是一個巨大的數據集線器,由于谷歌收集數據(內容)從許多來源(網站),并使其通過一個統一的搜索接口訪問。

數據積累,這種模式往往涉及大量爬蟲行為、數據清理和實體解析。盡管以上列出的其他數據收集方法包括創建原始數據,這種方法就是找出現有數據源之間的連接。

這個模型的數據積累往往涉及大量web爬行,數據清洗、和實體解析。雖然上面列出的其他數據收集方法包括創建原始數據,這種方法就是找出現有數據源之間的連接。

提示積累數據

收集盡可能多的數據,幾乎任何數據都有價值,如果你的創意,你可以隨時刪除數據,在未來,如果你決定這是不是有價值的不夠。

盡早開始收集數據,數據分析可以推遲到你的公司比較成熟時,但數據的收集不能被推遲。你不能回到過去來檢索未保存的數據。

更喜歡原始數據得出的數據。原始數據(例如,每個用戶給一本書的評論)比處理過的數據(例如一本書的平均評分)更有價值。處理過的數據的主要問題是,將讓你喪失掉部分的可能性。

例如,如果你只跟蹤平均收視率,那么你將無法弄清楚,當你添加一些用戶標記為垃圾郵件的能力調整時的一個評級。那么你將無法弄清楚,如何調整這些評級當您添加一些用戶標記為垃圾時。

軟件缺陷也可以嚴重破壞處理的數據。例如,如果你永遠不會保存個人用戶評級,然后引入了一個錯誤,得到平均收視率全部是錯的,那么所有等級的數據將變得一文不值的。由于這些原因,每當存儲成本不是高昂時,盡量存儲原始數據。

與外部連接的數據集的數據可以訪問,更獨立數據源源將會使得你的見解會越好。例如,如果你知道Bob的郵件地址,那么你知道如何與他聯系。如果你可以電子郵件鏈接到Bob的Facebook和LinkedIn檔案,那么你將有一個更好地了解他的個人和職業興趣。如果你能讓OAuth訪問電子郵件帳戶,你就會知道鮑勃會買什么產品,你將知道如何與他進行談判。

如果配合Bob的位置歷史記錄,以企業名單,那么你就會知道,如果他是一個健身房或藝術愛好者,更甚者家庭至上。你可以連接你的數據到其它專有的數據集(例如,你可以從Factual或者社會網絡中購買企業名單)或公關數據集(如氣象數據或美國人口普查數據)。

注意事項和陷阱

建立一個龐大的數據集可以是偉大的,但有些事情是會減少你的數據價值。這里有一些問題要問自己:

收益遞減規律對數據集來說非常嚴重。對于一些數據集,如汽車價格,10倍的數據點可能是比3倍或4倍更有價值。每輛車有許多可能的配置,數據點越多越準確,你就可以更準確的為一個特定的配置預測一個公平的價格。其他數據集,如汽車燃油效率,十幾倍的數據可能只有1.01倍的價值。100數據點會讓你估計普銳斯的MPG非常準確,當增加到1000或10000數據點時幫助也只有一點點。最有價值的數據集將不遭受迅速邊際收益遞減因素

還有沒有其他的更簡單的方式來積累數據?如果你是一個信用卡公司,你可能會認為有在線交易數據,很多消費者是有價值的。但你不必非得成為一個信用卡公司去得到這些數據。你可以是一個會計工具如Mint,或優惠券工具如Honey,或電子郵件分析器像Unroll.me。復制的數據集越大,這將更有價值。

如何確保你的數據是準確的?有時一個數據集的實用性是有混亂的限制。例如,書的價格列表是巨大的,如果每個價格對應一個ISBN號,但不太有用,如果每個價格對應于一本書的標題。(如果你看到兩個不同的價格,是不是因為一個價格是針對精裝書,一個是一本平裝書?還是因為有兩本書同名?)

如何確保你的數據是新鮮的?如果你的數據說,谷歌的股票價格創下400美元高價,就像天文學家發現了兩個新的衛星圍繞冥王星,如果是2005年時那么這是有用的。不幸的是,谷歌現在是1100美元和冥王星不再被認為是行星。作為數據變得不那么新鮮,那就變得不那么有用。

結論

到目前為止,我已經介紹積累有價值的數據方式,以及如何使用這些數據作為一個競爭優勢。在下面文章中,我將討論特定業務模型和他們的核心數據。

關鍵字:谷歌內部模型DataFox

本文摘自:百度百家

x 如何建立有價值的數據庫? 掃一掃
分享本文到朋友圈
當前位置:大數據數據庫 → 正文

如何建立有價值的數據庫?

責任編輯:editor04 作者:俊世太保 |來源:企業網D1Net  2015-04-21 08:40:00 本文摘自:百度百家

摘要 : 數據是非常有價值的,它有助于創造優品、形成一個進入壁壘,甚至可以直接貨幣化。

數據是非常有價值的,它有助于創造優品、形成一個進入壁壘,甚至可以直接貨幣化。本篇文章將想分析「公司利用數據的價值」,將有三部分組成。

在上一篇文章中,已經談了關于「如何把數據轉化成競爭優勢?」,而在這篇文章中,我將討論建立有價值數據庫的技巧和策略。

一個有價值的數據庫的屬性

你應該怎么努力才能讓你積累的大數據具有優勢?下面是寶貴的數據庫的關鍵屬性:

一個理想的數據庫是很難讓別人從頭開始構建。

一個理想的數據庫包括全面,準確,最新的數據。

一個理想的數據庫理應是有價值的。例如,餐館菜單的數據庫,將是非常有價值的,同時鞋碼的數據庫會不值錢。

一個理想的數據庫的增長的越多價值也就越多,也就是說,該數據需要有正網絡效應。

數據源

好吧,你讀了第一篇文章在這個系列,你就相信數據是偉大的,你想多了吧。但是你怎么弄的?下面是一些經過驗證的方法:

直接收集。傳感器網絡的形式,調查,訪談等都是很好的方式,直接收集數據。

眾包。公司如Glassdoor,Yelp和Waze主要通過用戶貢獻獲取數據。眾包是直接收集的子集,但有一個值得注意的點,因為用戶通常不知道他們正在幫助公司建立一個數據資產。例如,Yelp的用戶寫評語,因為他們想表達他們的意見,但這些評論還幫助建立了Yelp的的數據集。

付費眾包。您可以支付員工(通常這些都是外包員工)或機器人進行數據收集,可能很難收集沒有人類的幫助。

使用工具產生的「數據廢氣」。一切與眾包技術密切相關的都可以說是在利用「數據廢氣」。雖然眾包往往是一個商業模式的核心部分(Yelp必須要依賴用戶寫評語),「數據廢氣」是正常使用工具時產生的數據副產品。

例如,亞馬遜的主要目的是銷售產品,但它收集了大量的用戶行為和商店數據。用戶搜索什么?結果他們點擊了什么?他們最終購買了什么?所有這些數據都有助于亞馬遜建立價格彈性的內部模型,其中可以促成一些產品組合購買,并針對每個用戶提供個性化的建議。

需要注意的是,幾乎任何工具可以產生有價值的「數據廢氣」。一個購物網站積累的數據來自搜索和購買,制藥公司的銷售數據很多都是來自藥師的工具。所有這些數據可以用來為用戶做出更好的產品,有時這些數據甚至可以直接賣給第三方,。

當懷疑一些數據塊它是否值得保存的,盡量選擇繼續和保存。因為你以后可以隨時刪除它,如果它不能證明是有用的,但你會驚奇地發現,大量的數據最終被有價值的,如果你只是得到足夠它。

捆綁許多現有的數據集在一起。公司如事實,Vurb和DataFox都結合多個數據源在一個地方。事實上,谷歌搜索可以被認為是一個巨大的數據集線器,由于谷歌收集數據(內容)從許多來源(網站),并使其通過一個統一的搜索接口訪問。

數據積累,這種模式往往涉及大量爬蟲行為、數據清理和實體解析。盡管以上列出的其他數據收集方法包括創建原始數據,這種方法就是找出現有數據源之間的連接。

這個模型的數據積累往往涉及大量web爬行,數據清洗、和實體解析。雖然上面列出的其他數據收集方法包括創建原始數據,這種方法就是找出現有數據源之間的連接。

提示積累數據

收集盡可能多的數據,幾乎任何數據都有價值,如果你的創意,你可以隨時刪除數據,在未來,如果你決定這是不是有價值的不夠。

盡早開始收集數據,數據分析可以推遲到你的公司比較成熟時,但數據的收集不能被推遲。你不能回到過去來檢索未保存的數據。

更喜歡原始數據得出的數據。原始數據(例如,每個用戶給一本書的評論)比處理過的數據(例如一本書的平均評分)更有價值。處理過的數據的主要問題是,將讓你喪失掉部分的可能性。

例如,如果你只跟蹤平均收視率,那么你將無法弄清楚,當你添加一些用戶標記為垃圾郵件的能力調整時的一個評級。那么你將無法弄清楚,如何調整這些評級當您添加一些用戶標記為垃圾時。

軟件缺陷也可以嚴重破壞處理的數據。例如,如果你永遠不會保存個人用戶評級,然后引入了一個錯誤,得到平均收視率全部是錯的,那么所有等級的數據將變得一文不值的。由于這些原因,每當存儲成本不是高昂時,盡量存儲原始數據。

與外部連接的數據集的數據可以訪問,更獨立數據源源將會使得你的見解會越好。例如,如果你知道Bob的郵件地址,那么你知道如何與他聯系。如果你可以電子郵件鏈接到Bob的Facebook和LinkedIn檔案,那么你將有一個更好地了解他的個人和職業興趣。如果你能讓OAuth訪問電子郵件帳戶,你就會知道鮑勃會買什么產品,你將知道如何與他進行談判。

如果配合Bob的位置歷史記錄,以企業名單,那么你就會知道,如果他是一個健身房或藝術愛好者,更甚者家庭至上。你可以連接你的數據到其它專有的數據集(例如,你可以從Factual或者社會網絡中購買企業名單)或公關數據集(如氣象數據或美國人口普查數據)。

注意事項和陷阱

建立一個龐大的數據集可以是偉大的,但有些事情是會減少你的數據價值。這里有一些問題要問自己:

收益遞減規律對數據集來說非常嚴重。對于一些數據集,如汽車價格,10倍的數據點可能是比3倍或4倍更有價值。每輛車有許多可能的配置,數據點越多越準確,你就可以更準確的為一個特定的配置預測一個公平的價格。其他數據集,如汽車燃油效率,十幾倍的數據可能只有1.01倍的價值。100數據點會讓你估計普銳斯的MPG非常準確,當增加到1000或10000數據點時幫助也只有一點點。最有價值的數據集將不遭受迅速邊際收益遞減因素

還有沒有其他的更簡單的方式來積累數據?如果你是一個信用卡公司,你可能會認為有在線交易數據,很多消費者是有價值的。但你不必非得成為一個信用卡公司去得到這些數據。你可以是一個會計工具如Mint,或優惠券工具如Honey,或電子郵件分析器像Unroll.me。復制的數據集越大,這將更有價值。

如何確保你的數據是準確的?有時一個數據集的實用性是有混亂的限制。例如,書的價格列表是巨大的,如果每個價格對應一個ISBN號,但不太有用,如果每個價格對應于一本書的標題。(如果你看到兩個不同的價格,是不是因為一個價格是針對精裝書,一個是一本平裝書?還是因為有兩本書同名?)

如何確保你的數據是新鮮的?如果你的數據說,谷歌的股票價格創下400美元高價,就像天文學家發現了兩個新的衛星圍繞冥王星,如果是2005年時那么這是有用的。不幸的是,谷歌現在是1100美元和冥王星不再被認為是行星。作為數據變得不那么新鮮,那就變得不那么有用。

結論

到目前為止,我已經介紹積累有價值的數據方式,以及如何使用這些數據作為一個競爭優勢。在下面文章中,我將討論特定業務模型和他們的核心數據。

關鍵字:谷歌內部模型DataFox

本文摘自:百度百家

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 新乡市| 河津市| 临清市| 临安市| 西丰县| 碌曲县| 磐石市| 万安县| 济源市| 临夏县| 遵化市| 景宁| 墨竹工卡县| 永康市| 景谷| 成武县| 巴林右旗| 苗栗县| 马边| 辉县市| 中卫市| 鹤峰县| 连南| 建平县| 济南市| 丹江口市| 西贡区| 广河县| 彭阳县| 泽库县| 通辽市| 辽宁省| 建湖县| 壶关县| 本溪| 开封县| 拜城县| 开化县| 夏邑县| 托克托县| 虞城县|