熊猫“count(distinct)”等效

2025-01-17 09:23:00
admin
原创
73
摘要:问题描述:我使用 Pandas 作为数据库替代品,因为我有多个数据库(Oracle、SQL Server等),并且无法创建与 SQL 等效的命令序列。我在 DataFrame 中加载了一张表,其中包含一些列:YEARMONTH, CLIENTCODE, SIZE, etc., etc. 在 SQL 中,计算每...

问题描述:

我使用 Pandas 作为数据库替代品,因为我有多个数据库(Oracle、SQL Server等),并且无法创建与 SQL 等效的命令序列。

我在 DataFrame 中加载了一张表,其中包含一些列:

YEARMONTH, CLIENTCODE, SIZE, etc., etc.

在 SQL 中,计算每年不同客户的数量如下:

SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;

结果是

201301    5000
201302    13245

我怎样才能在 Pandas 中做到这一点?


解决方案 1:

我相信这就是你想要的:

table.groupby('YEARMONTH').CLIENTCODE.nunique()

例子:

In [2]: table
Out[2]: 
   CLIENTCODE  YEARMONTH
0           1     201301
1           1     201301
2           2     201301
3           1     201302
4           2     201302
5           2     201302
6           3     201302

In [3]: table.groupby('YEARMONTH').CLIENTCODE.nunique()
Out[3]: 
YEARMONTH
201301       2
201302       3

解决方案 2:

这是另一种方法,它更简单。假设您的数据框名称为daat,列名称为YEARMONTH

daat.YEARMONTH.value_counts()

解决方案 3:

有趣的是,通常len(unique())比快几倍(3 倍至 15 倍)nunique()

解决方案 4:

我也正在使用,但如果您必须使用诸如等nunique聚合函数,它将非常有帮助。'min', 'max', 'count' or 'mean'

df.groupby('YEARMONTH')['CLIENTCODE'].transform('nunique') #count(distinct)
df.groupby('YEARMONTH')['CLIENTCODE'].transform('min')     #min
df.groupby('YEARMONTH')['CLIENTCODE'].transform('max')     #max
df.groupby('YEARMONTH')['CLIENTCODE'].transform('mean')    #average
df.groupby('YEARMONTH')['CLIENTCODE'].transform('count')   #count

解决方案 5:

列的不同以及其他列上的聚合

为了获取任何列(在您的情况下)的不同数量的值CLIENTCODE,我们可以使用nunique。我们可以将输入作为agg函数中的字典传递,以及其他列上的聚合:

grp_df = df.groupby('YEARMONTH').agg({'CLIENTCODE': ['nunique'],
                                      'other_col_1': ['sum', 'count']})

# to flatten the multi-level columns
grp_df.columns = ["_".join(col).strip() for col in grp_df.columns.values]

# if you wish to reset the index
grp_df.reset_index(inplace=True)

解决方案 6:

使用crosstab,这将返回比 更多的信息groupby nunique

pd.crosstab(df.YEARMONTH,df.CLIENTCODE)
Out[196]:
CLIENTCODE  1  2  3
YEARMONTH
201301      2  1  0
201302      1  2  1

经过一些修改后,得到以下结果:

pd.crosstab(df.YEARMONTH,df.CLIENTCODE).ne(0).sum(1)
Out[197]:
YEARMONTH
201301    2
201302    3
dtype: int64

解决方案 7:

以下是对多个列进行计数的方法。我们来看看一些数据:

data = {'CLIENT_CODE':[1,1,2,1,2,2,3],
        'YEAR_MONTH':[201301,201301,201301,201302,201302,201302,201302],
        'PRODUCT_CODE': [100,150,220,400,50,80,100]
       }
table = pd.DataFrame(data)
table

CLIENT_CODE YEAR_MONTH  PRODUCT_CODE
0   1       201301      100
1   1       201301      150
2   2       201301      220
3   1       201302      400
4   2       201302      50
5   2       201302      80
6   3       201302      100

现在,列出感兴趣的列并使用稍微修改过的语法进行 groupby:

columns = ['YEAR_MONTH', 'PRODUCT_CODE']
table[columns].groupby(table['CLIENT_CODE']).nunique()

我们得到:

YEAR_MONTH  PRODUCT_CODE CLIENT_CODE
1           2            3
2           2            3
3           1            1

解决方案 8:

使用新版本的 Pandas,可以轻松获取数据框:

unique_count = pd.groupby(['YEARMONTH'], as_index=False).agg(uniq_CLIENTCODE=('CLIENTCODE', pd.Series.count))

解决方案 9:

创建数据透视表并使用nunique系列函数:

ID = [ 123, 123, 123, 456, 456, 456, 456, 789, 789]
domain = ['vk.com', 'vk.com', 'twitter.com', 'vk.com', 'facebook.com',
          'vk.com', 'google.com', 'twitter.com', 'vk.com']
df = pd.DataFrame({'id':ID, 'domain':domain})
fp = pd.pivot_table(data=df, index='domain', aggfunc=pd.Series.nunique)
print(fp)

输出:

               id
domain
facebook.com   1
google.com     1
twitter.com    2
vk.com         3

解决方案 10:

现在您也可以使用Python 中的dplyr语法来执行此操作:

>>> from datar.all import f, tibble, group_by, summarise, n_distinct
>>>
>>> data = tibble(
...     CLIENT_CODE=[1,1,2,1,2,2,3],
...     YEAR_MONTH=[201301,201301,201301,201302,201302,201302,201302]
... )
>>>
>>> data >> group_by(f.YEAR_MONTH) >> summarise(n=n_distinct(f.CLIENT_CODE))
   YEAR_MONTH       n
      <int64> <int64>
0      201301       2
1      201302       3

解决方案 11:

  • 要获取每年不同客户的数量和规模(即多列的唯一值的数量),请使用以下列表:

df.groupby('YEARMONTH')[['CLIENTCODE', 'SIZE']].nunique()
  • df实际上,可以使用SQL 语法pandasql(基于 pandas 构建的模块,可让您使用 SQL 语法查询 pandas DataFrames)
    获得上述代码的结果。

#! pip install pandasql
from pandasql import sqldf
sqldf("""
SELECT COUNT(DISTINCT CLIENTCODE), 
       COUNT(DISTINCT SIZE)
  FROM df 
  GROUP BY YEARMONTH
""")
  • 如果要将 YEARMONTH 保留为一列,即以下 SQL 查询的模拟

SELECT YEARMONTH, 
       COUNT(DISTINCT CLIENTCODE),
       COUNT(DISTINCT SIZE)
  FROM df 
  GROUP BY YEARMONTH

在 pandas 中如下(设置as_indexFalse):

df.groupby('YEARMONTH', as_index=False)[['CLIENTCODE', 'SIZE']].nunique()
  • 如果需要给聚合列设置自定义名称,即模拟以下SQL查询:

SELECT YEARMONTH, 
       COUNT(DISTINCT CLIENTCODE) AS `No. clients`, 
       COUNT(DISTINCT SIZE) AS `No. size`
  FROM df 
  GROUP BY YEARMONTH

在 Pandas 中使用命名聚合:

(
    df.groupby('YEARMONTH', as_index=False)
      .agg(**{'No. clients':('CLIENTCODE', 'nunique'), 
              'No. size':('SIZE', 'nunique')})
)

解决方案 12:

要计算多列的不同值,请len()使用DataFrameGroupBy

例如,计算不同的值(a, b)

len(df.groupby(["a", "b"]))

等效 SQL:

SELECT count(distinct (a, b))
FROM df

这可以在组内通过使用groupby 方法完成.apply

例如,计算(a, b)组内的不同值g

data.groupby("g").apply(lambda df: len(df.groupby(["a", "b"]))

等效 SQL:

SELECT count(distinct (a, b))
FROM df
GROUP BY g

.apply是需要的,因为.agg并且只允许您按.transform应用聚合或转换。

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   1565  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1354  
  信创国产芯片作为信息技术创新的核心领域,对于推动国家自主可控生态建设具有至关重要的意义。在全球科技竞争日益激烈的背景下,实现信息技术的自主可控,摆脱对国外技术的依赖,已成为保障国家信息安全和产业可持续发展的关键。国产芯片作为信创产业的基石,其发展水平直接影响着整个信创生态的构建与完善。通过不断提升国产芯片的技术实力、产...
国产信创系统   21  
  信创生态建设旨在实现信息技术领域的自主创新和安全可控,涵盖了从硬件到软件的全产业链。随着数字化转型的加速,信创生态建设的重要性日益凸显,它不仅关乎国家的信息安全,更是推动产业升级和经济高质量发展的关键力量。然而,在推进信创生态建设的过程中,面临着诸多复杂且严峻的挑战,需要深入剖析并寻找切实可行的解决方案。技术创新难题技...
信创操作系统   27  
  信创产业作为国家信息技术创新发展的重要领域,对于保障国家信息安全、推动产业升级具有关键意义。而国产芯片作为信创产业的核心基石,其研发进展备受关注。在信创国产芯片的研发征程中,面临着诸多复杂且艰巨的难点,这些难点犹如一道道关卡,阻碍着国产芯片的快速发展。然而,科研人员和相关企业并未退缩,积极探索并提出了一系列切实可行的解...
国产化替代产品目录   28  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用