一位数据科学家的私房工具清单

2018年7月13日14:59:22来源:IT经理人一位数据科学家的私房工具清单已关闭评论506 views 1777字阅读5分55秒

一位数据科学家的私房工具清单

作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:

处理较大、较复杂的类excel数据

  • Pandas -处理tabular(类似Excel)数据的通用工具套件
  • SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
  • PostgreSQL – 企业级数据库系统

处理空间、地理数据:

  • PostGIS – Postgres的地理空间数据类型扩展
  • Carto – 地理空间数据的商业数据挖掘工具
  • Mapbox – 商业地图绘制工具,同时也是一个web地图系统。
  • Leaflet – 基于网络资源和本地数据开发活动web地图的代码库
  • qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具

处理非常规数据:

  • RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
  • MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
  • CouchDB – 与MongoDB有些类似但不尽相同。
  • Cassandra – 图谱和关系数据库

为大规模数据集创建性能代码:

  • Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
  • Apache Spark – 一个通用的高性能数据处理系统
  • SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
  • Cython – 使用用C编译器的Python编译器,用来提升Python性能。
  • PyOpenCL – 在图形显卡上进行数值计算和统计处理。

数据清洗工具

  • ODO – 在不同数据格式间进行转换的Python库。
  • OpenRefine – 拥有图形用户界面的数据发现和清洗工具
  • Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
  • Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
  • BeautifulSoup – 与Scrapy类似但不尽相同
  • Scrubadub – 去除个人身份信息
  • Arrow – 帮你轻松驾驭日期和时间戳的Python库
  • DataCleaner – 剔除脏数据的Python库
  • Dora – 与DataCleaner功能类似的Python库。

数据可视化工具

  • Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing Data
  • D3 – 在web上开发可视化交互
  • C3 – 来自D3的图表.
  • Bokeh – 与D3类似, 但基于Python.
  • matplotlib – 最早的Python数据可视化工具集。
  • Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
  • MapBox -详见地图工具集。
  • qGIS – 详见地图工具集。
  • VTK – 在医疗、 化学和物理研究领域常用的重型可视化工具包。

数据挖掘和机器学习工具

  • Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
  • SciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
  • Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
  • TensorFlow – Google开源的多维度图谱数学建模工具。

分享、协作以及知识管理工具

weinxin
扫码,关注科塔学术公众号
致力于成为国内领先的科研与学术资源导航平台,让科研工作更简单、更有效率。内容专业,信息准确,更新及时。
  • 版权声明 本文源自 IT经理人 整理 发表于 2018年7月13日14:59:22
  • 转载请务必保留本文链接:https://www.sciping.com/11371.html
科技资源描述模型和建立方法研究 学术文献

科技资源描述模型和建立方法研究

顾复 刘杨圣彦 顾新建 浙江大学机械工程学院工业工程研究所 摘要: 科技创新是我国发展的关键途径,需要科技资源的共享和协同创新。科技资源共享是一个系统工程,需要建立科技资源的描述模型,在此基础上进行科...
科技资源共享的需求、内容、方法体系框架 学术文献

科技资源共享的需求、内容、方法体系框架

顾新建 杨青海 顾复 代风 纪杨建 浙江大学工业与系统工程系 中国标准化研究院高新技术标准化研究所 摘要: 建立科技资源需求、内容、方法体系框架,包括(1)科技资源共享需求体系,主要是高端化、个性化、...
科技资源及其分类体系研究 学术文献

科技资源及其分类体系研究

董明涛 孙研 王斌 东北大学秦皇岛分校经贸学院 东北大学秦皇岛分校社会科学研究院 摘要: 正确把握科技资源的内涵并构建起系统的分类体系, 有利于科技资源的整合与共享, 也是提高科技资源共享效率的有效手...
大数据:发展现状与未来趋势 学术文献

大数据:发展现状与未来趋势

中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲...