職業社交平臺LinkedIn今天開源了元數據管理工具WhereHows(GitHub),該工具可以幫企業員工發現和分享企業內部的元數據。
LinkedIn部署了很多數據存儲和處理系統,包括Teradata的數據倉庫、開源的Hadoop分布式文件系統,開源的Hive數據倉庫以及自己開發的開源試試分析軟件Pinot。而WhereHows則能幫LinkedIn的員工檢索和分享LinkedIn的HDFS系統中超過25000個共享數據集。在數據爆炸的今天,隨時掌握企業內部有價值信息的情況(元數據)非常重要,這能大大提高企業員工的信息搜索和分享深度,盤活整個企業的數據資產。
LinkedIn此前也開源過很多大數據工具,例如上文提到的Pinot,以及Azkaban、Kafka、Samza和Voldemort等,但在數據發現和數據目錄方面的工具,WhereHows還是頭一個。對于那些數據架構復雜的企業來說,WhereHows具有很高的實用價值。而對于LinkedIn來說,開源高價值高人氣的工具能夠幫助公司吸引優秀人才,這一點比什么都重要。
WhereHows的詳細文檔在這里。