日本免费一区视频,亚洲人成免费电影,精品一区二区三区视频日产

一位數據科學家的私房工具清單

責任編輯：editor007

2017-01-23 21:20:16

摘自：IT經理網

摘要：近日北卡來羅納大學CTO，一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集。Orange – 另一個基于Python的數據挖掘工具套件，同樣擁有圖形用戶界面。

摘要：近日北卡來羅納大學CTO，一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集。請看正文

作為一位萬人敬仰的數據科學家，不但需要培育一棵參天技能樹，私人武器庫里沒有一票玩得轉的大火力工具也是沒法在江湖中呼風喚雨的。

一位數據科學家的私房工具清單

近日北卡來羅納大學CTO，一位數據科學家Jefferson Heard分享了多年來收集沉淀的數據分析工具集：

處理較大、較復雜的類excel數據

Pandas -處理tabular(類似Excel)數據的通用工具套件

SQLite – Tabular數據庫格式，能夠處理大規模數據集，同時也能在桌面環境運行。

PostgreSQL – 企業級數據庫系統

處理空間、地理數據：

PostGIS – Postgres的地理空間數據類型擴展

Carto – 地理空間數據的商業數據挖掘工具

Mapbox – 商業地圖繪制工具，同時也是一個web地圖系統。

Leaflet – 基于網絡資源和本地數據開發活動web地圖的代碼庫

qGIS – 適用于幾乎所有地理空間和地圖繪制的圖形化GIS工具

處理非常規數據：

RethinkDB – 處理實時數據流非常棒的數據庫，正在從商業轉開源，小心使用。

MongoDB – 處理大規模非結構化和半結構化數據的流行數據庫，應用于生產環境需要加小心。

CouchDB – 與MongoDB有些類似但不盡相同。

Cassandra – 圖譜和關系數據庫

為大規模數據集創建性能代碼：

Pandas – Python下一個開源數據分析的庫,它提供的數據結構DataFrame極大的簡化了數據分析過程中一些繁瑣操作。

Apache Spark – 一個通用的高性能數據處理系統

SciPy and Numpy -可編寫腳本的基于C的數值算法，能在緊湊的,底層機器數據架構上運行。

Cython – 使用用C編譯器的Python編譯器，用來提升Python性能。

PyOpenCL – 在圖形顯卡上進行數值計算和統計處理。

數據清洗工具

ODO – 在不同數據格式間進行轉換的Python庫。

OpenRefine – 擁有圖形用戶界面的數據發現和清洗工具

Pandas – 數據科學任務中用來處理tabular數據的通用Python工具集

Scrapy – Python開發的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結構化的數據。

BeautifulSoup – 與Scrapy類似但不盡相同

Scrubadub – 去除個人身份信息

Arrow – 幫你輕松駕馭日期和時間戳的Python庫

DataCleaner – 剔除臟數據的Python庫

Dora – 與DataCleaner功能類似的Python庫。

數據可視化工具

Processing – 交互式開發交互式可視化內容. 推薦讀本：Visualizing

DataD3 – 在web上開發可視化交互

C3 – 來自D3的圖表.

Bokeh – 與D3類似, 但基于Python.

matplotlib – 最早的Python數據可視化工具集。

Leaflet – 一個為開發移動設備友好的互動地圖的開源 JavaScript 庫。

MapBox -詳見地圖工具集。

qGIS – 詳見地圖工具集。

VTK – 在醫療、和物理研究領域常用的重型可視化工具包。

數據挖掘和機器學習工具

Weka – 一個機器學習和數據挖掘工具包，這里有一本免費可讀的參考書

ciKitLearn – 基于Python的機器學習和數據挖掘工具套件。

Orange – 另一個基于Python的數據挖掘工具套件，同樣擁有圖形用戶界面。

TensorFlow – Google開源的多維度圖譜數學建模工具。

分享、協作以及知識管理工具

Django -基于Python的web框架

Django REST Framework – 為Django網站創建 REST APIs

IRODS – 企業級數據存儲和管理，包括元數據管理和基于規則的數據處理。

Cassandra (useful for metadata and relationship storage) – 一個存儲和查詢元數據經常用到的開源分布式數據管理系統

GitLab -GitHub的開源替代品，可搭建私人服務器。

ReciPy –

Prov – Python implementation of the W3C provenance model

Kanren (部署基于元數據和數據源信息的業務邏輯非常有用) – 一個描述性Python邏輯編程系統，非常適合科學元數據的查詢和基于規則的處理。

ndash 數據清洗

熱門專題

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內卷“出海”勢在必行數字化為全球業務保駕護航

破內卷“出海”勢在必行，數字化為全球業務保駕護航

邊緣創新數智向實

2023英特爾智能邊緣行業應用巡展·智慧協同站

高端訪談

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

中國國際醫藥衛生有限公司數智化中心總經理馮偉在接受企業網D1Net專訪時提到：“回過頭來看，數智化建設最難的是轉思維，必須打破信息化總想去建系統的固有思維，要以平臺化思維、站在運營和業務的角度思考問題。思維轉變后，很多問題將迎刃而解。”

創維集團信息總監寧江：數據治理是數字化轉型的必由之路

創維集團信息總監寧江在接受企業網D1Net采訪時提到：“如今，站在數字化轉型的全局之下回顧過去幾十年的信息化建設，似乎建了很多煙囪，系統之間、流程之間不能共享數據，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術總監高麗：云原生加速企業數字化轉型

海爾智家全球數字化平臺用到了哪些云原生技術產品?如何實現降本增效?在云原生技術應用方面有哪些實踐和探索?云原生技術發揮了哪些價值?在本期“云原生降本增效大咖說”中，企業網D1Net采訪了海爾智家全球數字化平臺技術總監高麗。

熱文推薦

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

一位數據科學家的私房工具清單

業務服務

網站地圖

友情鏈接

合作伙伴