精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

一位數據科學家的私房工具清單

責任編輯:editor006 作者:王萌 |來源:企業網D1Net  2017-01-20 16:08:09 本文摘自:IT經理網

數據科學家工具清單

作為一位萬人敬仰的數據科學家,不但需要培育一棵參天技能樹,私人武器庫里沒有一票玩得轉的大火力工具也是沒法在江湖中呼風喚雨的。

近日北卡來羅納大學CTO,一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集:

處理較大、較復雜的類excel數據

Pandas -處理tabular(類似Excel)數據的通用工具套件 SQLite – Tabular數據庫格式,能夠處理大規模數據集,同時也能在桌面環境運行。 PostgreSQL – 企業級數據庫系統

處理空間、地理數據:

PostGIS – Postgres的地理空間數據類型擴展Carto – 地理空間數據的商業數據挖掘工具Mapbox – 商業地圖繪制工具,同時也是一個web地圖系統。Leaflet – 基于網絡資源和本地數據開發活動web地圖的代碼庫qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規數據:

RethinkDB – 處理實時數據流非常棒的數據庫,正在從商業轉開源,小心使用。MongoDB – 處理大規模非結構化和半結構化數據的流行數據庫,應用于生產環境需要加小心。CouchDB – 與MongoDB有些類似但不盡相同。Cassandra – 圖譜和關系數據庫

為大規模數據集創建性能代碼:

Pandas – Python下一個開源數據分析的庫,它提供的數據結構DataFrame極大的簡化了數據分析過程中一些繁瑣操作。Apache Spark – 一個通用的高性能數據處理系統 SciPy and Numpy -可編寫腳本的基于C的數值算法,能在緊湊的,底層機器數據架構上運行。Cython – 使用用C編譯器的Python編譯器,用來提升Python性能。PyOpenCL – 在圖形顯卡上進行數值計算和統計處理。

數據清洗工具

ODO – 在不同數據格式間進行轉換的Python庫。OpenRefine – 擁有圖形用戶界面的數據發現和清洗工具Pandas – 數據科學任務中用來處理tabular數據的通用Python工具集Scrapy – Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。BeautifulSoup – 與Scrapy類似但不盡相同Scrubadub – 去除個人身份信息Arrow – 幫你輕松駕馭日期和時間戳的Python庫DataCleaner – 剔除臟數據的Python庫Dora – 與DataCleaner功能類似的Python庫。

數據可視化工具

Processing – 交互式開發交互式可視化內容. 推薦讀本:Visualizing DataD3 – 在web上開發可視化交互C3 – 來自D3的圖表. Bokeh – 與D3類似, 但基于Python. matplotlib – 最早的Python數據可視化工具集。Leaflet – 一個為開發移動設備友好的互動地圖的開源 JavaScript 庫。MapBox -詳見地圖工具集。qGIS – 詳見地圖工具集。VTK – 在醫療、 和物理研究領域常用的重型可視化工具包。

數據挖掘和機器學習工具

Weka – 一個機器學習和數據挖掘工具包,這里有一本免費可讀的參考書SciKitLearn – 基于Python的機器學習和數據挖掘工具套件。 Orange – 另一個基于Python的數據挖掘工具套件,同樣擁有圖形用戶界面。TensorFlow – Google開源的多維度圖譜數學建模工具。

分享、協作以及知識管理工具

Django -基于Python的web框架Django REST Framework – 為Django網站創建 REST APIsIRODS – 企業級數據存儲和管理,包括元數據管理和基于規則的數據處理。Cassandra (useful for metadata and relationship storage) – 一個存儲和查詢元數據經常用到的開源分布式數據管理系統GitLab -GitHub的開源替代品,可搭建私人服務器。ReciPy – Prov – Python implementation of the W3C provenance model Kanren (部署基于元數據和數據源信息的業務邏輯非常有用) – 一個描述性Python邏輯編程系統,非常適合科學元數據的查詢和基于規則的處理。

關鍵字:Python數據挖掘

本文摘自:IT經理網

x 一位數據科學家的私房工具清單 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

一位數據科學家的私房工具清單

責任編輯:editor006 作者:王萌 |來源:企業網D1Net  2017-01-20 16:08:09 本文摘自:IT經理網

數據科學家工具清單

作為一位萬人敬仰的數據科學家,不但需要培育一棵參天技能樹,私人武器庫里沒有一票玩得轉的大火力工具也是沒法在江湖中呼風喚雨的。

近日北卡來羅納大學CTO,一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集:

處理較大、較復雜的類excel數據

Pandas -處理tabular(類似Excel)數據的通用工具套件 SQLite – Tabular數據庫格式,能夠處理大規模數據集,同時也能在桌面環境運行。 PostgreSQL – 企業級數據庫系統

處理空間、地理數據:

PostGIS – Postgres的地理空間數據類型擴展Carto – 地理空間數據的商業數據挖掘工具Mapbox – 商業地圖繪制工具,同時也是一個web地圖系統。Leaflet – 基于網絡資源和本地數據開發活動web地圖的代碼庫qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規數據:

RethinkDB – 處理實時數據流非常棒的數據庫,正在從商業轉開源,小心使用。MongoDB – 處理大規模非結構化和半結構化數據的流行數據庫,應用于生產環境需要加小心。CouchDB – 與MongoDB有些類似但不盡相同。Cassandra – 圖譜和關系數據庫

為大規模數據集創建性能代碼:

Pandas – Python下一個開源數據分析的庫,它提供的數據結構DataFrame極大的簡化了數據分析過程中一些繁瑣操作。Apache Spark – 一個通用的高性能數據處理系統 SciPy and Numpy -可編寫腳本的基于C的數值算法,能在緊湊的,底層機器數據架構上運行。Cython – 使用用C編譯器的Python編譯器,用來提升Python性能。PyOpenCL – 在圖形顯卡上進行數值計算和統計處理。

數據清洗工具

ODO – 在不同數據格式間進行轉換的Python庫。OpenRefine – 擁有圖形用戶界面的數據發現和清洗工具Pandas – 數據科學任務中用來處理tabular數據的通用Python工具集Scrapy – Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化的數據。BeautifulSoup – 與Scrapy類似但不盡相同Scrubadub – 去除個人身份信息Arrow – 幫你輕松駕馭日期和時間戳的Python庫DataCleaner – 剔除臟數據的Python庫Dora – 與DataCleaner功能類似的Python庫。

數據可視化工具

Processing – 交互式開發交互式可視化內容. 推薦讀本:Visualizing DataD3 – 在web上開發可視化交互C3 – 來自D3的圖表. Bokeh – 與D3類似, 但基于Python. matplotlib – 最早的Python數據可視化工具集。Leaflet – 一個為開發移動設備友好的互動地圖的開源 JavaScript 庫。MapBox -詳見地圖工具集。qGIS – 詳見地圖工具集。VTK – 在醫療、 和物理研究領域常用的重型可視化工具包。

數據挖掘和機器學習工具

Weka – 一個機器學習和數據挖掘工具包,這里有一本免費可讀的參考書SciKitLearn – 基于Python的機器學習和數據挖掘工具套件。 Orange – 另一個基于Python的數據挖掘工具套件,同樣擁有圖形用戶界面。TensorFlow – Google開源的多維度圖譜數學建模工具。

分享、協作以及知識管理工具

Django -基于Python的web框架Django REST Framework – 為Django網站創建 REST APIsIRODS – 企業級數據存儲和管理,包括元數據管理和基于規則的數據處理。Cassandra (useful for metadata and relationship storage) – 一個存儲和查詢元數據經常用到的開源分布式數據管理系統GitLab -GitHub的開源替代品,可搭建私人服務器。ReciPy – Prov – Python implementation of the W3C provenance model Kanren (部署基于元數據和數據源信息的業務邏輯非常有用) – 一個描述性Python邏輯編程系統,非常適合科學元數據的查詢和基于規則的處理。

關鍵字:Python數據挖掘

本文摘自:IT經理網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 临汾市| 垣曲县| 清涧县| 宁河县| 三台县| 于田县| 新宾| 内黄县| 青川县| 昌图县| 余庆县| 贡嘎县| 广南县| 宿迁市| 咸阳市| 陇南市| 自治县| 太康县| 临江市| 若尔盖县| 龙岩市| 开远市| 司法| 大同县| 尤溪县| 揭东县| 宜宾市| 黔江区| 四会市| 浦县| 惠安县| 遵义县| 定西市| 富顺县| 葫芦岛市| 徐汇区| 龙州县| 贡山| 上虞市| 皋兰县| 连山|