db2 replace函数的用法_高效的 10 个Pandas函数，你都用过吗？

db2 replace函数的用法_高效的 10 个Pandas函数，你都用过吗？

2024-12-27 01:27

这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用到过。还有一些函数出现的频率没那么高，但它们同样是分析数据的得力帮手。

介绍这些函数之前，第一步先要导入pandas和numpy。

Query是pandas的过滤查询函数，使用布尔表达式来查询DataFrame的列，就是说按照列的规则进行过滤操作。

用法：

参数作用：

首先生成一段df：

用法：

参数作用：

接着用前面的df：

参数作用：

以前面的df为例，group列有A、B、C三组，year列有多个年份。我们只知道当年度的值value_1、value_2，现在求group分组下的累计值，比如A、2014之前的累计值，可以用cumsum函数来实现。

当然仅用cumsum函数没办法对groups (A, B, C)进行区分，所以需要结合分组函数groupby分别对(A, B, C)进行值的累加。

参数作用：

比如要从df中随机抽取5行：

用法：

参数作用：

将df中列value_1里小于5的值替换为0：

「掩码」（英语：Mask）在计算机学科及数字逻辑中指的是一串二进制数字，通过与目标数字的按位操作，达到屏蔽指定位而实现需求。

Isin也是一种过滤方法，用于查看某列中是否包含某个字符串，返回值为布尔Series，来表明每一行的情况。

用法：

筛选df中year列值在['2010','2014','2017']里的行：

用法：

选择df第1~3行、第1~2列的数据，使用iloc：

选择第1、3、5行，year和value_1列：

比如说给定三个元素[2,3,6]，计算相差百分比后得到[NaN, 0.5, 1.0]，从第一个元素到第二个元素增加50％，从第二个元素到第三个元素增加100％。

用法：

参数作用：

对df的value_1列进行增长率的计算：

比如有一个序列[1,7,5,3]，使用rank从小到大排名后，返回[1,4,3,2]，这就是前面那个序列每个值的排名位置。

用法：

参数作用：

对df中列value_1进行排名：

简单说就是将指定的列放到铺开放到行上变成两列，类别是variable(可指定)列，值是value(可指定)列。

参数作用：

例如有一串数据，表示不同城市和每天的人口流动：