为什么选择python
个人选择python的主要原因是对R的嫌弃。
py虽然没有c语言高效,但比起速度宛如ie的r语言还是很有优势的。py的语言也比较容易理解,应用比较广泛,在各种领域都有涉及。学习py以后可以顺便撸个网页搞搞爬虫啥的,相对之下如果不打算从事相关工作,写完论文以后r语言就不太用得到了。
但r语言毕竟是专门为统计服务的语言,各种模型都比较完善,也比较容易画出好看又装x的图(数模竞赛里经常作为工具语言拿来画图的存在)
常用库及安装
py里和数据分析相关的最有名的库大概就是大熊猫pandas了,是其他很多库的依赖项。
numpy则是pandas的依赖。
matplotlib包主要用于画图。
Seaborn在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易。
sklearn 和 statsmodels里则是一些具体的模型。
pandas_profiling可以一键生成描述性统计的分析报告,懒人福音。
安装直接用pip就行,国内直接pip可能不太行,可以用国内镜像,如pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas
pip install numpy
pip install pandas
pip install seaborn
pip install sklearn
pip install statsmodels
pip install pandas_profiling