本文概述
Pandas是供Python数据科学家使用的事实上的工具箱, 它可以简化数据分析:例如, 在开始分析之前, 可以使用它来收集, 浏览和格式化数据。pandas通过其众多的I / O和便捷的数据操作功能使这些步骤变得轻而易举。而且, 正如你将在本教程的后面部分了解的那样, 它还具有一些可视化功能(通过使用matplotlib)。
尽管Pandas数据结构非常强大和灵活, 但它们也具有一些复杂性, 这会使你的分析变得更加困难而不是容易, 特别是对于初学者而言。在本教程中, 你将集中精力学习更多有关如何避免麻烦和编写更多惯用的Pandas代码的信息。除了学习如何加载, 浏览和清理数据之外, 你还将了解以下五个主题的更多信息:
- 借助loc和iloc进行索引, 以及使用query()查询你的DataFrame的简短介绍;
- 方法链接, 借助pipe()函数替代了嵌套函数;
- 内存优化, 可以通过设置数据类型来实现;
- 以天真的和pandas的方式进行分组操作;和
- 使用Matplotlib和Seaborn可视化你的DataFrame。
当然, 本教程绝非详尽无遗。 Pandas软件包非常丰富, 毫无疑问, 还有其他一些方法可以改进Pandas代码, 使它变得更加惯用。
让我们不再等待, 开始吧!
加载和浏览数据
与往常一样, 数据分析从加载和浏览数据开始。本部分只是一个热身, 你将在其中使用read_csv()函数加载世界大学排名, 之后, 你已经可以使用head()和describe()函数快速浏览数据。如果你对Pandas的完整介绍感兴趣, 请考虑从Pandas Foundations开始参加srcmini的三部分Pandas课程。
如果你已经了解了所有这些内容, 则可以跳过本节, 并了解如何以更加惯用的方式对Pandas进行索引。
导入包
首先, 让我们导入用于数据科学的常规Python程序包。你可能已经猜到了, pandas就是其中之一。
# If you're working with a notebook, don't forget to use Matplotlib magic!
%matplotlib inline
# Import `pandas` under the alias `pd`
import pandas as pd
# Import `seaborn` under the alias `sns`
import seaborn as sns
# Set the Seaborn theme if desired
sns.set_style('darkgrid')
此外, 你还可以使用水印包:这是一个不错的工具, 可让你的笔记本更具再现性。与同事合作时, 可重复的工作非常重要。你未来的自我也会为此感谢你!你可以在此处阅读有关可再生数据科学的更多信息。
数据
为了开始本教程, 你还需要获取一些”真实”数据。对于本教程, 你将使用Kaggle的数据集。如果你不熟悉Kaggle, 它是最大的数据科学和机器学习社区之一。此外, 一旦你了解了基础知识, 它也是一个学习更多有关数据科学的好地方。
你将使用的数据集是世界大学排名。
如上所述, Pandas有许多方便的方法可以从不同的数据源读取数据(你可以在此处了解更多信息)。由于数据为CSV格式, 因此我们将使用.read_csv方法。但是在开始之前, 你需要从Kaggle下载数据(或者, 如果你不想创建帐户, 则可以从data文件夹下的代码存储库获取数据)。
提取数据后, 应该有一个包含不同csv文件的文件夹数据。
接下来, 你将使用《泰晤士高等教育》世界大学排名排名(以下简称”时间”)和世界大学学术排名(简称”上海”)的排名数据。数据文件夹CWUR中还有一个第三级系统, 但鲜为人知, 因此你现在可以放心忽略它。
# Import Times Higher Education World University Rankings data
times_df = pd.read_csv('data/timesData.csv', thousands=", ")
# Import Academic Ranking of World Universities data
shanghai_df = pd.read_csv('data/shanghaiData.csv')
快速检查数据
正如你在srcmini的探索性数据分析教程中所了解的那样, Pandas提供了一些方法来快速检查DataFrame, 即.head()检查前n行(默认情况下n为5)和.describe()以获取快速的统计摘要。 。
通过执行以下代码行来刷新这些功能。数据已经为你加载在times_df和shanghai_df下:
现在, 你已经加载了数据, 你可以开始考虑如何以惯用的方式使用Pandas处理数据了!
1.索引
首先, 编写更多惯用的Pandas代码意味着利用索引的功能。索引意味着你可以从DataFrame中选择子集。
当你刚开始使用Pandas时, 可能需要一些时间来习惯索引的工作方式。实际上, 如果你以前使用过(Python)列表, 则可能已经熟悉使用方括号[]和冒号:来选择元素。此方法适用于DataFrames。
此外, 还有其他两种更惯用的方式来选择子集DataFrame。这两种方法分别是iloc和loc:
- loc是基于标签的。这意味着, 如果你编写loc [2], 则正在查找具有标为2的索引的DataFrame的值。
- iloc是基于位置的。这意味着, 如果你编写iloc [2], 则正在查找索引2处的DataFrame值。
在下面的srcmini Light块中尝试此操作, 方法是在IPython控制台中键入times_df.loc [2]和times_df.iloc [2]来查看区别。接下来, 尝试在loc, iloc和传统方括号的帮助下解决以下练习!
当然, 你的探索不仅可以简单地子集化或从数据的行和列中进行选择, 而且可以走得更远。当你将loc和iloc与例如布尔数组结合使用时, 事情会变得非常有趣。
你会看到, 这超出了根据列或索引选择数据的范围;有点像查询你的数据!
loc和iloc可以很好地索引数据, 但是当你开始使用两组彼此之间的方括号时要小心!pandas可以返回视图的副本, 在这种情况下, 你将不会知道自己还在做什么!因此, 如果结合使用loc或iloc的两组方括号, 请三思。
还请注意, 要查询数据, Pandas还为你提供了query()函数, 你可以使用该函数快速检查数据(自0.13版开始可用)。例如, 你可以编写查询以查看哪些大学的total_score略低于50:
当然, 查询数据还有更多可能性!为什么不尝试提出一些查询, 并在上述srcmini Light块的IPython控制台中对其进行测试?
如果你缺少灵感, 请尝试使用查询来返回排名第一的大学和排名第一的大学。此外, 你可以查询大学的校友人数。
你不知道如何编写查询吗?查看以下一些示例:
shanghai_df.query("national_rank == 1 and world_rank == 1")
shanghai_df.query("alumni < 20")
2.方法链接
方法链接是Pandas的典型代表, 但是当你刚开始使用Python数据操作包时, 如何实现它可能并不容易。它基本上是一个对象一个接一个地调用方法。
在本节中, 你将通过使用pipe()创建数据管道来更深入地进行方法链接。
你已经注意到, 数据集完全不同。以下是一些区别:
- Times数据集有14列, 而上海数据集有11列
- 时报数据集有2603行, 而上海数据集有4897行
- 上海的数据集中缺少的一列是大学所在的国家/地区。如果需要, 你稍后将从Times数据集中获取此信息。
因此, 为了使我们同时使用两个DataFrame, 我们将只需要选择公共列。希望这些通用列具有相似的内容。
因此, 公共列为:
- total_score:用于确定排名的分数。如Kaggle说明页面中所述, 它们包含范围等级(即两个值之间)和相等等级(前面有=符号)
- university_name:大学名称
- world_rank:大学排名
- 年:完成排名的年份
为了连接两个数据, 我们需要先进行一些清理。然后立即应用完整的管道来清理数据:
你可能已经注意到, 本教程中我经常使用.pipe方法。如果你来自R世界, 则可能(以某种方式)熟悉它。
这是一种方便的新Pandas(自0.16.2版本开始)方法, 可让你链接操作并因此不需要中间DataFrame。你的代码更具可读性。
实际上, 如果没有此运算符, 则无需编写df.pipe(f).pipe(g).pipe(h), 而应编写:h(g(f(df)))。一旦嵌套函数的数量增加, 这将变得更难遵循。
要了解有关该主题的更多信息, 我强烈建议阅读以下博客文章。
现在, 两个数据框都已清理完毕, 我们可以将它们串联为一个数据框。另外, 不要忘记清理丢失的数据:
由于total_score列中大约丢失了38%的数据, 因此最好使用.drop方法删除该列。
3.内存优化
使你的Pandas代码更”惯用”(在这种情况下更等于”性能”)的第三种方法是优化内存使用。特别是当你开始使用方法链建立数据管道时, 你会发现内存在管道运行速度方面起着重要作用。你会在这里看到更多关于这方面的信息。
对于这个小的数据集, 这可能是过大的了, 但是将某些列转换为特定类型以优化内存使用通常是一个好习惯。首先, 让我们使用.info方法查找为rank_df分配多少内存。
第一行代码的结果告诉我们, 数据占用144 KB。但是, 在检查.info方法的参数时, 会发现存在一个可选参数, 即memory_usage, 默认情况下将其设置为None。将参数memory_usage设置为deep会发生什么?
新的内存占用量为6 -5.6, 比你最初的答案要精确得多。
这里发生了什么?
内存估算的差异源于以下事实:没有打开” deep”标志, Pandas不会估算对象dtype的内存消耗。这种(Python)数据比其他numpy优化dtype占用更多的空间。这就是为什么建议将对象类型转换为更合适的类型的原因(例如, 在处理分类数据时使用类别)。
我们开始做吧!
def memory_change(input_df, column, dtype):
df = input_df.copy()
old = round(df[column].memory_usage(deep=True) / 1024, 2) # In KB
new = round(df[column].astype(dtype).memory_usage(deep=True) / 1024, 2)# In KB
change = round(100 * (old - new) / (old), 2)
report = ("The inital memory footprint for {column} is: {old}KB.\n"
"The casted {column} now takes: {new}KB.\n"
"A change of {change} %.").format(**locals())
return report
print(memory_change(ranking_df, 'world_rank', 'int16'))
print(memory_change(ranking_df, 'university_name', 'category'))
print(memory_change(ranking_df, 'name', 'category'))
现在你已经知道, 例如, 将world_rank更改为int16, 将可以更有效地利用你的内存, 是时候实际应用这些更改了。你可以使用astype()函数执行此操作。通过仔细检查你的内存使用情况现在结束:
那好多了。你可以通过将year列强制转换为int32来进一步优化。
4. GroupBy
现在我们有了格式正确的数据集(即处于整理状态), 并且内存占用已优化, 可以开始数据分析了。
现在, 有一些你可能有兴趣回答的问题:
- 多年来, 每个排名系统给予的前五名大学是什么?
- 这些排名每年有何不同?
让我们通过使用在上一节中已经看到的更加惯用的pandas指针来解决第一个问题!
开始之前, 请注意”麻省理工学院(MIT)”和”麻省理工学院”是同一所大学的两条不同记录。因此, 你将名字更改为后者。
请注意, 在这种情况下, 你在本教程前面看到的loc函数特别方便!
为了找到多年来排名前5的大学(通常是n所), 对于每个排名系统, 以下是使用伪代码的方法:
- 对于每年(在”年份”列中)和每个排名系统(在”名称”列中):
- 选择给定年份和给定排名系统的数据子集
- 选择5所顶尖大学并将其存储在列表中
- 将结果存储在以(年, 名称)为关键字, 以大学列表(降序)为值的字典中
让我们应用这个。
现在我们有了排名字典, 让我们找出多年来这两种排名方法有多少不同(以百分比为单位):如果所选的排名前5位的大学相同, 即使它们没有排名, 两者也是100%相似的相同。
你已经注意到, 这很乏味。有没有更好, 更惯用的pandas方式?
当然有!首先, 过滤排名数据框架以仅保留每年排名前5的大学和排名方法。还可以通过head()函数检查结果:
现在, 你可以使用正确的DataFrame了, 让我们使用.groupby方法使用上面定义的集合相似度比较两种排名方法。
你将获得与上述相同的结果, 而麻烦却更少。
5.可视化
现在, 你已经对数据集进行了一些初步分析, 现在该是可视化探索数据的时候了。更多惯用的Pandas代码还意味着你可以利用Matplotlib软件包中的Pandas绘图集成功能。因此, 你将立即绘制出精美的地块!
在本节中, 你将返回times_df和shanghai_df数据集, 以使用Matplotlib和Seaborn进行一些基本的可视化。
上图立即表明, 校友栏有一些0值。在浏览数据时, definitley需要考虑到这一点:借助数据分析, 你将能够看到这0个值并能够对其进行处理。如果你想进一步了解这一点, 请查看srcmini的数据剖析教程。
或者, 如果你的值在数据集中没有位置, 则可以简单地将它们替换为NaN, 然后删除所有列的NaN值, 这将使数据绘制更加困难。请注意, 这只是调整数据的一种快速方法, 你可能需要执行更详细的数据分析步骤以确保数据质量得到改善, 因为在下图中, 你仍然看到num_students列的值为0:
当然, 你无需局限于Matplotlib即可可视化数据。还有其他可以让你快速可视化数据的库, 例如Seaborn。
Seaborn绘图工具主要用于创建视觉上吸引人的统计图(如官方网站中所述)。实际上, 在Matplotlib 2.0版之前, 创建漂亮的绘图很麻烦(虽然可能)。
pandas与Seaborn的结合还使你可以通过可视化方式快速迭代数据。
让我们探索一些例子!
看看下面的图, 你在其中计算特定国家/地区出现在数据中的次数, 进行前十次观察, 并确保在绘制小图时将计数从最高值到最低值进行排序:
然后, 你可以继续绘制这些国家及其平均分数:
你的情节也可能变得非常复杂。查看以下对图, 该图旨在更清楚地向你展示数据集中的成对关系:
import numpy as np
np.seterr(invalid='ignore')
sns.pairplot(times_df, hue='country')
plt.show()
同样, 你可以查看FacetGrid和regplot的组合, 这使你对过去5个国家的total_score的演变有一些见解:
最后, 当你浏览数据时, 相关图也可能会派上用场。你可以使用Seaborn的heatmap()函数来完成此操作:
你可以继续进行这些可视化, 所以也许最好暂时停止:)。
超越
就是这样, 我希望你喜欢学习与Pandas合作的一些中间技术, 更具体地说是如何编写更多惯用的Pandas代码。
如果你喜欢这篇博客文章, 并且想深入了解Pandas的性能, 我强烈建议你添加以下其他材料:
- 汤姆·奥格斯珀格的《现代pandas》教程,
- 斯蒂芬·西蒙斯(Stephen Simmons)的《这只pandas从内而外》的演讲, 以及
- 如果你想了解更多有关如何使用其他Python工具实现groupby操作的信息, 我强烈建议阅读以下博客文章。
来源:
https://www.srcmini02.com/46697.html