1.数据收集
scrapy:网页采集、爬虫。
scrapy-redis:分布式爬虫。
selenium:web测试、仿真浏览器。
2.数据处理
beautifulsoup:网页解释库,提供lxml的支持。
lxml:xml解释库。
xlrd:excel文件读取。
xlwt:excel文件写入。
slutls:excel文件简单格式修改。
pywin32:excel文件的读取写入及复杂格式定制。
Python-docx:Word文件的读取写入。
3.数据分析
numpy:基于矩阵的数学计算库。
pandas:基于表格的统计分析库。
scipy:科学计算库,支持高阶抽象和复杂模型。
statsmodels:统计建模和计量经济学工具包。
scikit-learn:机器学习工具库。
gensim:自然语言处理工具库。
jeba:中文分词工具库。
4.数据存储
MySQL-python:mysql的读写接口库。
mysqlclient:mysql的读写接口库。
SQLAlchemy:数据库的ORM封装。
pymysql:sqlserver读写接口库。
redis:redis的读写接口。
PyMongo:MongoDB的读写接口。
5.数据呈现
matplotlib:流行的数据可视化库。
seaborn:美观的数据可视化库,基于matplotlib。
6.工具辅助
jupyter:基于web的pythonIDE,常用于数据分析。
chardet:字符检查工具。
ConfigParser:配置文件读写支持。
requests:HTTP库,用于网络访问。
————————————————