當前位置：大數據 → 數據庫 → 正文

如何建立有價值的數據庫？

責任編輯：editor04 作者：俊世太保 |來源：企業網D1Net 2015-04-21 08:40:00 本文摘自：百度百家

摘要 : 數據是非常有價值的，它有助于創造優品、形成一個進入壁壘，甚至可以直接貨幣化。

數據是非常有價值的，它有助于創造優品、形成一個進入壁壘，甚至可以直接貨幣化。本篇文章將想分析「公司利用數據的價值」，將有三部分組成。

在上一篇文章中，已經談了關于「如何把數據轉化成競爭優勢？」，而在這篇文章中，我將討論建立有價值數據庫的技巧和策略。

一個有價值的數據庫的屬性

你應該怎么努力才能讓你積累的大數據具有優勢？下面是寶貴的數據庫的關鍵屬性：

一個理想的數據庫是很難讓別人從頭開始構建。

一個理想的數據庫包括全面，準確，最新的數據。

一個理想的數據庫理應是有價值的。例如，餐館菜單的數據庫，將是非常有價值的，同時鞋碼的數據庫會不值錢。

一個理想的數據庫的增長的越多價值也就越多，也就是說，該數據需要有正網絡效應。

數據源

好吧，你讀了第一篇文章在這個系列，你就相信數據是偉大的，你想多了吧。但是你怎么弄的？下面是一些經過驗證的方法：

直接收集。傳感器網絡的形式，調查，訪談等都是很好的方式，直接收集數據。

眾包。公司如Glassdoor，Yelp和Waze主要通過用戶貢獻獲取數據。眾包是直接收集的子集，但有一個值得注意的點，因為用戶通常不知道他們正在幫助公司建立一個數據資產。例如，Yelp的用戶寫評語，因為他們想表達他們的意見，但這些評論還幫助建立了Yelp的的數據集。

付費眾包。您可以支付員工（通常這些都是外包員工）或機器人進行數據收集，可能很難收集沒有人類的幫助。

使用工具產生的「數據廢氣」。一切與眾包技術密切相關的都可以說是在利用「數據廢氣」。雖然眾包往往是一個商業模式的核心部分（Yelp必須要依賴用戶寫評語），「數據廢氣」是正常使用工具時產生的數據副產品。

例如，亞馬遜的主要目的是銷售產品，但它收集了大量的用戶行為和商店數據。用戶搜索什么？結果他們點擊了什么？他們最終購買了什么？所有這些數據都有助于亞馬遜建立價格彈性的內部模型，其中可以促成一些產品組合購買，并針對每個用戶提供個性化的建議。

需要注意的是，幾乎任何工具可以產生有價值的「數據廢氣」。一個購物網站積累的數據來自搜索和購買，制藥公司的銷售數據很多都是來自藥師的工具。所有這些數據可以用來為用戶做出更好的產品，有時這些數據甚至可以直接賣給第三方,。

當懷疑一些數據塊它是否值得保存的，盡量選擇繼續和保存。因為你以后可以隨時刪除它，如果它不能證明是有用的，但你會驚奇地發現，大量的數據最終被有價值的，如果你只是得到足夠它。

捆綁許多現有的數據集在一起。公司如事實，Vurb和DataFox都結合多個數據源在一個地方。事實上，谷歌搜索可以被認為是一個巨大的數據集線器，由于谷歌收集數據（內容）從許多來源（網站），并使其通過一個統一的搜索接口訪問。

數據積累，這種模式往往涉及大量爬蟲行為、數據清理和實體解析。盡管以上列出的其他數據收集方法包括創建原始數據，這種方法就是找出現有數據源之間的連接。

這個模型的數據積累往往涉及大量web爬行,數據清洗、和實體解析。雖然上面列出的其他數據收集方法包括創建原始數據,這種方法就是找出現有數據源之間的連接。

提示積累數據

收集盡可能多的數據，幾乎任何數據都有價值，如果你的創意，你可以隨時刪除數據，在未來，如果你決定這是不是有價值的不夠。

盡早開始收集數據，數據分析可以推遲到你的公司比較成熟時，但數據的收集不能被推遲。你不能回到過去來檢索未保存的數據。

更喜歡原始數據得出的數據。原始數據（例如，每個用戶給一本書的評論）比處理過的數據（例如一本書的平均評分）更有價值。處理過的數據的主要問題是，將讓你喪失掉部分的可能性。

例如，如果你只跟蹤平均收視率，那么你將無法弄清楚，當你添加一些用戶標記為垃圾郵件的能力調整時的一個評級。那么你將無法弄清楚，如何調整這些評級當您添加一些用戶標記為垃圾時。

軟件缺陷也可以嚴重破壞處理的數據。例如，如果你永遠不會保存個人用戶評級，然后引入了一個錯誤，得到平均收視率全部是錯的，那么所有等級的數據將變得一文不值的。由于這些原因，每當存儲成本不是高昂時，盡量存儲原始數據。

與外部連接的數據集的數據可以訪問，更獨立數據源源將會使得你的見解會越好。例如，如果你知道Bob的郵件地址，那么你知道如何與他聯系。如果你可以電子郵件鏈接到Bob的Facebook和LinkedIn檔案，那么你將有一個更好地了解他的個人和職業興趣。如果你能讓OAuth訪問電子郵件帳戶，你就會知道鮑勃會買什么產品，你將知道如何與他進行談判。

如果配合Bob的位置歷史記錄，以企業名單，那么你就會知道，如果他是一個健身房或藝術愛好者，更甚者家庭至上。你可以連接你的數據到其它專有的數據集（例如，你可以從Factual或者社會網絡中購買企業名單）或公關數據集（如氣象數據或美國人口普查數據）。

注意事項和陷阱

建立一個龐大的數據集可以是偉大的，但有些事情是會減少你的數據價值。這里有一些問題要問自己：

收益遞減規律對數據集來說非常嚴重。對于一些數據集，如汽車價格,10倍的數據點可能是比3倍或4倍更有價值。每輛車有許多可能的配置，數據點越多越準確，你就可以更準確的為一個特定的配置預測一個公平的價格。其他數據集，如汽車燃油效率，十幾倍的數據可能只有1.01倍的價值。100數據點會讓你估計普銳斯的MPG非常準確，當增加到1000或10000數據點時幫助也只有一點點。最有價值的數據集將不遭受迅速邊際收益遞減因素

還有沒有其他的更簡單的方式來積累數據？如果你是一個信用卡公司，你可能會認為有在線交易數據，很多消費者是有價值的。但你不必非得成為一個信用卡公司去得到這些數據。你可以是一個會計工具如Mint，或優惠券工具如Honey，或電子郵件分析器像Unroll.me。復制的數據集越大，這將更有價值。

如何確保你的數據是準確的？有時一個數據集的實用性是有混亂的限制。例如，書的價格列表是巨大的，如果每個價格對應一個ISBN號，但不太有用，如果每個價格對應于一本書的標題。（如果你看到兩個不同的價格，是不是因為一個價格是針對精裝書，一個是一本平裝書？還是因為有兩本書同名？）

如何確保你的數據是新鮮的？如果你的數據說，谷歌的股票價格創下400美元高價，就像天文學家發現了兩個新的衛星圍繞冥王星，如果是2005年時那么這是有用的。不幸的是，谷歌現在是1100美元和冥王星不再被認為是行星。作為數據變得不那么新鮮，那就變得不那么有用。

結論

到目前為止，我已經介紹積累有價值的數據方式，以及如何使用這些數據作為一個競爭優勢。在下面文章中，我將討論特定業務模型和他們的核心數據。

關鍵字：谷歌內部模型 DataFox