资讯 小学 初中 高中 语言 会计职称 学历提升 法考 计算机考试 医护考试 建工考试 教育百科
栏目分类:
子分类:
返回
空麓网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
空麓网 > 计算机考试 > 软件开发 > 后端开发 > Python

Pandas groupby apply 最后卡住

Python 更新时间: 发布时间: 计算机考试归档 最新发布

Pandas groupby apply 最后卡住

最近又遇到bug了,排除法排除了半天,终于有定论了。

现象:使用groupby().apply(),最后要出结果的时候程序卡住。

错误代码示例:

import pandas as pdfrom tqdm import tqdmdef func(df):    df['mean_sa'] = df['salary'].shift(1)    return dfdata = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000df_ori = pd.DataFrame(data, columns=['idx', 'company', 'salary', 'age'])df_ori = df_ori.set_index('idx')tqdm.pandas(desc='Get returns')df_ori = df_ori.groupby('company').progress_apply(func)

现象解释:数据结构问题。

当输入数据有很多行,然后index和需要groupby的列有很多重复的数值时,就会出现groupby apply最后卡住的现象。

解决方法很简单:

方法一:对需要分组的那一列先排序!!!本例中是第二列,之后就一切正常了。

# 排序前data = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000# 排序后data = [[1, 'A', 43, 35]] * 3000 +        [[0, 'C', 18, 30]] * 3000 +        [[1, 'C', 18, 30]] * 3000

方法二:使用不同的返回值。修改下面三处代码即可。

import pandas as pdfrom tqdm import tqdmdef func(df):    mean_sa = df['salary'].shift(1)  # 这里不一样    return mean_sa   # 这里不一样data = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000df_ori = pd.DataFrame(data, columns=['idx', 'company', 'salary', 'age'])df_ori = df_ori.set_index('idx')tqdm.pandas(desc='Get returns')df_new = df_ori.groupby('company').progress_apply(func)  # 这里不一样

以上就是groupby().apply()卡住的解决方案,希望可以帮到你。欢迎点赞+评论。

转载请注明:文章转载自 http://www.konglu.com/
本文地址:http://www.konglu.com/it/1095072.html
免责声明:

我们致力于保护作者版权,注重分享,被刊用文章【Pandas groupby apply 最后卡住】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2023 成都空麓科技有限公司

ICP备案号:蜀ICP备2023000828号-2