-
[python] [pandas] 특정 칼럼에 속한 unique한 값의 개수 구하기Data miner/Development log 2021. 1. 22. 16:16728x90
domain, count vk.com 3 twitter.com 2 facebook.com 1 google.com 1
위와 같은 데이터프레임이 있다고 하자. 각 도메인에 속하는 unique한 ID값의 개수가 궁금하다. 'vk.com'의 도메인에 속하는 구분가능한 ID의 개수는 3개다.
ID, domain 123, 'vk.com' 123, 'vk.com' 123, 'twitter.com' 456, 'vk.com' 456, 'facebook.com' 456, 'vk.com' 456, 'google.com' 789, 'twitter.com' 789, 'vk.com'
다음의 코드를 사용하면 된다. nunique() 함수를 사용한다.
df.groupby('domain')['ID'].nunique()
'Data miner > Development log' 카테고리의 다른 글
[Spark] [python] 구조적 API 기본 연산 (0) 2021.03.01 [Spark] 아파치 스파크 개념 정리중 (1) 2021.02.17 [python] [pandas] 특정 칼럼 기준으로 값이 개수 구해서 새로운 칼럼에 추가하기 ( = 엑셀의 countif 함수) (0) 2021.01.20 [tf.Keras] Keras.models의 Model과 keras.layers의 Lambda (0) 2021.01.15 Data Augmentation (0) 2021.01.07