1、什么是Pandas?
Pandas是用于处理数据集的Python库。
它具有分析,清理,浏览和处理数据的功能。
“Pandas”这个名称同时引用了"Panel Data"和“ Python数据分析”,由Wes McKinney在2008年创建。
2、为什么Pandas?
Pandas使我们能够分析大数据并根据统计理论做出结论。
Pandas可以清理混乱的数据集,并使它们可读并具有相关性。
相关数据在数据科学中非常重要。
数据科学:是计算机科学的一个分支,我们研究如何存储,使用和分析数据以从中获取信息。
3、Pandas能做什么?
Pandas将为你解答有关数据的问题:
- 两个或多个列之间是否存在相关性?
- 什么是平均值?
- 最大值?
- 最小值?
Pandas还能够删除不相关的行或包含错误值(例如,空或NULL值)的行。这称为清除数据。
4、Pandas的代码库
Pandas的源代码位于github repository:https://github.com/pandas-dev/pandas
github:使许多人可以在同一代码库上工作。