Python数据分析——实用第三方库整理

1.数据收集 scrapy:网页采集、爬虫。 scrapy-redis:分布式爬虫。 selenium:web测试、仿真浏览器。 2.数据处理 beaut

1.数据收集

scrapy:网页采集、爬虫。
scrapy-redis:分布式爬虫。
selenium:web测试、仿真浏览器。

2.数据处理

beautifulsoup:网页解释库,提供lxml的支持。
lxml:xml解释库。
xlrd:excel文件读取。
xlwt:excel文件写入。
slutls:excel文件简单格式修改。
pywin32:excel文件的读取写入及复杂格式定制。
Python-docx:Word文件的读取写入。

3.数据分析

numpy:基于矩阵的数学计算库。
pandas:基于表格的统计分析库。
scipy:科学计算库,支持高阶抽象和复杂模型。
statsmodels:统计建模和计量经济学工具包。
scikit-learn:机器学习工具库。
gensim:自然语言处理工具库。
jeba:中文分词工具库。

4.数据存储

MySQL-python:mysql的读写接口库。
mysqlclient:mysql的读写接口库。
SQLAlchemy:数据库的ORM封装。
pymysql:sqlserver读写接口库。
redis:redis的读写接口。
PyMongo:MongoDB的读写接口。

5.数据呈现

matplotlib:流行的数据可视化库。
seaborn:美观的数据可视化库,基于matplotlib。

6.工具辅助

jupyter:基于web的pythonIDE,常用于数据分析。
chardet:字符检查工具。
ConfigParser:配置文件读写支持。
requests:HTTP库,用于网络访问。
————————————————