Data miner/Development log

[python] [pandas] 특정 칼럼에 속한 unique한 값의 개수 구하기

carayoon 2021. 1. 22. 16:16
728x90
domain, count
vk.com   3
twitter.com   2
facebook.com   1
google.com   1​

 

위와 같은 데이터프레임이 있다고 하자. 각 도메인에 속하는 unique한 ID값의 개수가 궁금하다. 'vk.com'의 도메인에 속하는 구분가능한 ID의 개수는 3개다. 

 

ID, domain
123, 'vk.com'
123, 'vk.com'
123, 'twitter.com'
456, 'vk.com'
456, 'facebook.com'
456, 'vk.com'
456, 'google.com'
789, 'twitter.com'
789, 'vk.com'

 

다음의 코드를 사용하면 된다. nunique() 함수를 사용한다. 

 

df.groupby('domain')['ID'].nunique()​