Pandas 中各组的排名顺序-IT科技

Pandas 中各组的排名顺序

2025-02-20 09:23:00

admin

原创

摘要：问题描述：考虑一个包含三列的数据框：group_ID、item_ID和value。假设总共有 10 个itemIDs。我需要根据对每个类别进行排名item_ID（1 到 10），然后查看各组的平均排名（和其他统计数据）（例如，各组中值最高的 ID 的排名将更接近 1）。如何在 Pandas 中执行此操作？gr...

问题描述：

考虑一个包含三列的数据框：group_ID、item_ID和value。假设总共有 10 个itemIDs。

我需要根据对每个类别进行排名item_ID（1 到 10），然后查看各组的平均排名（和其他统计数据）（例如，各组中值最高的 ID 的排名将更接近 1）。如何在 Pandas 中执行此操作？group_ID`value`

这个答案做的事情与非常接近qcut，但并不完全相同。

数据示例如下：

      group_ID   item_ID  value
0   0S00A1HZEy        AB     10
1   0S00A1HZEy        AY      4
2   0S00A1HZEy        AC     35
3   0S03jpFRaC        AY     90
4   0S03jpFRaC        A5      3
5   0S03jpFRaC        A3     10
6   0S03jpFRaC        A2      8
7   0S03jpFRaC        A4      9
8   0S03jpFRaC        A6      2
9   0S03jpFRaC        AX      0

这将导致：

      group_ID   item_ID   rank
0   0S00A1HZEy        AB      2
1   0S00A1HZEy        AY      3
2   0S00A1HZEy        AC      1
3   0S03jpFRaC        AY      1
4   0S03jpFRaC        A5      5
5   0S03jpFRaC        A3      2
6   0S03jpFRaC        A2      4
7   0S03jpFRaC        A4      3
8   0S03jpFRaC        A6      6
9   0S03jpFRaC        AX      7

解决方案 1：

您可以将许多不同的参数传递给rank；看起来您可以rank("dense", ascending=False)在执行后使用这些参数来获取所需的结果groupby：

>>> df["rank"] = df.groupby("group_ID")["value"].rank(method="dense", ascending=False)
>>> df
     group_ID item_ID  value  rank
0  0S00A1HZEy      AB     10     2
1  0S00A1HZEy      AY      4     3
2  0S00A1HZEy      AC     35     1
3  0S03jpFRaS      AY     90     1
4  0S03jpFRaS      A5      3     5
5  0S03jpFRaS      A3     10     2
6  0S03jpFRaS      A2      8     4
7  0S03jpFRaS      A4      9     3
8  0S03jpFRaS      A6      2     6
9  0S03jpFRaS      AX      0     7

但请注意，如果您没有使用全局排名方案，那么找出各组的平均排名并不是很有意义 - 除非组中有重复的值（因此您有重复的排名值），否则您所做的只是测量组中有多少个元素。

解决方案 2：

如果数据框已经按排序value，那么您可以累积计算每个组中值的位置。

df['rank'] = df.sort_values(by=['group_ID', 'value']).groupby('group_ID').cumcount(ascending=False) + 1

如果要按顺序对每个组中的值进行排序，则可以进行转换pd.qcut。如果组的大小相同或组间的排名有意义，或者每个组中都有很多重复项，则这尤其有用。

q = 10 # how many buckets to put the values in
df['rank'] = df.groupby('group_ID')['value'].transform(pd.qcut, q=q, labels=False, duplicates='drop')

# for descending order (smaller numbers have higher rank)
df['rank'] = q - df.groupby('group_ID')['value'].transform(pd.qcut, q=q, labels=False, duplicates='drop')

对于OP中的数据，结果如下（注意序数排序与相同groupby.rank）：

res2

问题描述：

解决方案 1：

解决方案 2：

云端的项目管理软件