db2 replace函数的用法_高效的 10 个Pandas函数，你都用过吗？

日期：2024-12-27 作者：njdthzhp 移动：http://oml01z.riyuangf.com/mobile/quote/59193.html

这篇文章将会配合实例，讲解10个重要的pandas函数。其中有一些很常用，相信你可能用到过。还有一些函数出现的频率没那么高，但它们同样是分析数据的得力帮手。

介绍这些函数之前，第一步先要导入pandas和numpy。

Query是pandas的过滤查询函数，使用布尔表达式来查询DataFrame的列，就是说按照列的规则进行过滤操作。

用法：

参数作用：

expr：要评估的查询字符串；
inplace=False：查询是应该修改数据还是返回修改后的副本
kwargs：dict关键字参数

首先生成一段df：

用法：

参数作用：

loc: int型，表示插入位置在第几列；若在第一列插入数据，则 loc=0
column: 给插入的列取名，如 column='新的一列'
value：新列的值，数字、array、series等都可以
allow_duplicates: 是否允许列名重复，选择Ture表示允许新的列名与已存在的列名重复

接着用前面的df：

参数作用：

axis：index或者轴的名字
skipna：排除NA/null值

以前面的df为例，group列有A、B、C三组，year列有多个年份。我们只知道当年度的值value_1、value_2，现在求group分组下的累计值，比如A、2014之前的累计值，可以用cumsum函数来实现。

当然仅用cumsum函数没办法对groups (A, B, C)进行区分，所以需要结合分组函数groupby分别对(A, B, C)进行值的累加。

参数作用：

n：要抽取的行数
frac：抽取行的比例例如frac=0.8，就是抽取其中80%
replace：是否为有放回抽样， True:有放回抽样 False:未放回抽样
weights：字符索引或概率数组
random_state ：随机数发生器种子
axis：选择抽取数据的行还是列 axis=0:抽取行 axis=1:抽取列

比如要从df中随机抽取5行：

用法：

参数作用：

cond：布尔条件，如果 cond 为真，保持原来的值，否则替换为other
other：替换的特殊值
inplace：inplace为真则在原数据上操作，为False则在原数据的copy上操作
axis：行或列

将df中列value_1里小于5的值替换为0：

「掩码」（英语：Mask）在计算机学科及数字逻辑中指的是一串二进制数字，通过与目标数字的按位操作，达到屏蔽指定位而实现需求。

Isin也是一种过滤方法，用于查看某列中是否包含某个字符串，返回值为布尔Series，来表明每一行的情况。

用法：

筛选df中year列值在['2010','2014','2017']里的行：

用法：

loc：按标签（column和index）选择行和列
iloc：按索引位置选择行和列

选择df第1~3行、第1~2列的数据，使用iloc：

选择第1、3、5行，year和value_1列：

比如说给定三个元素[2,3,6]，计算相差百分比后得到[NaN, 0.5, 1.0]，从第一个元素到第二个元素增加50％，从第二个元素到第三个元素增加100％。

用法：

参数作用：

periods：间隔区间，即步长
fill_method：处理空值的方法

对df的value_1列进行增长率的计算：

比如有一个序列[1,7,5,3]，使用rank从小到大排名后，返回[1,4,3,2]，这就是前面那个序列每个值的排名位置。

用法：

参数作用：

axis：行或者列
method：返回名次的方式，可选{‘average’, ‘min’, ‘max’, ‘first’, ‘dense’}
method=average 默认设置: 相同的值占据前两名，分不出谁是1谁是2，那么去中值即1.5，下面一名为第三名
method=max: 两人并列第 2 名，下一个人是第 3 名
method=min: 两人并列第 1 名，下一个人是第 3 名
method=dense: 两人并列第1名，下一个人是第 2 名
method=first: 相同值会按照其在序列中的相对位置定值
ascending：正序和倒序

对df中列value_1进行排名：

简单说就是将指定的列放到铺开放到行上变成两列，类别是variable(可指定)列，值是value(可指定)列。

参数作用：

frame：它是指DataFrame
id_vars [元组, 列表或ndarray, 可选]：不需要被转换的列名，引用用作标识符变量的列
value_vars [元组, 列表或ndarray, 可选]：引用要取消透视的列。如果未指定, 请使用未设置为id_vars的所有列
var_name [scalar]：指代用于”变量”列的名称。如果为None, 则使用- - frame.columns.name或’variable’
value_name [标量, 默认为’value’]：是指用于” value”列的名称
col_level [int或string, 可选]：如果列为MultiIndex, 它将使用此级别来融化

例如有一串数据，表示不同城市和每天的人口流动：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行