Pandas groupby apply 最后卡住-计算机考试-空麓网

Pandas groupby apply 最后卡住

Python 更新时间：2024-10-16 20:25:20 发布时间：2020-03-15 00:32:00 计算机考试归档最新发布

最近又遇到bug了，排除法排除了半天，终于有定论了。

现象：使用groupby().apply()，最后要出结果的时候程序卡住。

错误代码示例：

import pandas as pdfrom tqdm import tqdmdef func(df):    df['mean_sa'] = df['salary'].shift(1)    return dfdata = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000df_ori = pd.DataFrame(data, columns=['idx', 'company', 'salary', 'age'])df_ori = df_ori.set_index('idx')tqdm.pandas(desc='Get returns')df_ori = df_ori.groupby('company').progress_apply(func)

现象解释：数据结构问题。

当输入数据有很多行，然后index和需要groupby的列有很多重复的数值时，就会出现groupby apply最后卡住的现象。

解决方法很简单：

方法一：对需要分组的那一列先排序！！！本例中是第二列，之后就一切正常了。

# 排序前data = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000# 排序后data = [[1, 'A', 43, 35]] * 3000 +        [[0, 'C', 18, 30]] * 3000 +        [[1, 'C', 18, 30]] * 3000

方法二：使用不同的返回值。修改下面三处代码即可。

import pandas as pdfrom tqdm import tqdmdef func(df):    mean_sa = df['salary'].shift(1)  # 这里不一样    return mean_sa   # 这里不一样data = [[0, 'C', 43, 35]] * 3000 +        [[1, 'C', 18, 30]] * 3000 +        [[1, 'A', 20, 22]] * 3000df_ori = pd.DataFrame(data, columns=['idx', 'company', 'salary', 'age'])df_ori = df_ori.set_index('idx')tqdm.pandas(desc='Get returns')df_new = df_ori.groupby('company').progress_apply(func)  # 这里不一样

以上就是groupby().apply()卡住的解决方案，希望可以帮到你。欢迎点赞+评论。

转载请注明：文章转载自 http://www.konglu.com/

本文地址：http://www.konglu.com/it/1095072.html

免责声明：

我们致力于保护作者版权，注重分享，被刊用文章【Pandas groupby apply 最后卡住】因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!

Pandas groupby apply 最后卡住

Python相关栏目本月热门文章