GROUPBY
-
[python] [pandas] 특정 칼럼 기준으로 값이 개수 구해서 새로운 칼럼에 추가하기 ( = 엑셀의 countif 함수)Data miner/Development log 2021. 1. 20. 16:31
# 적용 전 Color Value Red 100 Red 150 Blue 50 NaN 30 # 적용 후 Color Value Counts Red 100 2 Red 150 2 Blue 50 1 NaN 30 0 Color열 기준으로 같은 값을 가지는 개수를 Counts 열로 추가하고자 한다면, 다음의 코드를 사용한다. df['Counts'] = df.groupby(['Color'])['Value'].transform('count') 다만, 컬럼의 값이 Null(Nan) 비어 있는 경우, 비어 있는 값의 개수들을 따로 카운팅하지 않는다. 이에, NaN 인 컬럼의 값들은 Counts 열에서 0의 값을 가진다.
-
[python] [pandas] groupbyData miner 2020. 4. 1. 21:50
dataframe의 정보들을 그룹핑하여 유의미한 통계량을 내는데 있어서 자주 쓰는 함수가 groupby다. 컬럼 혹은 인덱스에서 구조화되지 않은 경우, dataframe.groupby(['컬럼명'])으로 그룹지은 후, 사용자의 의도에 맞는 함수를 적용시켜 이것에 대한 세부 통계를 구한다. 실제 분석에 사용한 데이터를 가지고 이해해보자. game_id(게임 대전 고유 번호), winner, time, player, species, event, event_contents 로 칼럼으로 구성된 게임 데이터셋 train이 있다고 가정하자. 위의 데이터셋에서 나는 특정 게임 대전 마다(game_id) event에서 각 세부 게임 로그 활동이 얼마만큼 일어나는지를 알고 싶었다. 즉, game id가 0일 때, Cam..