dataframe
-
[python] [pandas] 특정 칼럼에 속한 unique한 값의 개수 구하기Data miner/Development log 2021. 1. 22. 16:16
domain, count vk.com 3 twitter.com 2 facebook.com 1 google.com 1 위와 같은 데이터프레임이 있다고 하자. 각 도메인에 속하는 unique한 ID값의 개수가 궁금하다. 'vk.com'의 도메인에 속하는 구분가능한 ID의 개수는 3개다. ID, domain 123, 'vk.com' 123, 'vk.com' 123, 'twitter.com' 456, 'vk.com' 456, 'facebook.com' 456, 'vk.com' 456, 'google.com' 789, 'twitter.com' 789, 'vk.com' 다음의 코드를 사용하면 된다. nunique() 함수를 사용한다. df.groupby('domain')['ID'].nunique()
-
[python] [pandas] index 활용하기Data miner/Development log 2020. 10. 15. 16:42
- Dataframe의 index는 데이터의 로우와 칼럼에 대한 이름 등을 저장하는 객체이다. 보통 특별히 index값을 정하지 않으면, 0부터의 순차적인 정수값을 가진다. 정수값뿐만이 아니라, 문자열의 값도 가질 수 있다. dataframe.index # Index([0,1,2, ... , '날짜', '2020-10-15') Index 가장 일반적인 index 객체, 파이썬의 numpy 배열 형식 MultiIndex 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체. 튜플의 배열과 유사 DatetimeIndex 나노초 타임스태프를 저장 PeriodIndex 기간 데이터에 대한 Index - 한번 설정한 색인은 변경할 수 없다. dataframe.index[0] = 'new index value'..
-
[python] [pandas] 객체에 함수 적용하기. applyData miner 2020. 4. 3. 00:55
Dataframe의 apply 메서드는 주어진 Dataframe에서 데이터를 사용자의 의도에 따라서 재가공하고자 하는 경우 사용된다. Dataframe의 1차원 배열이나의 각 행/열의 원소들에 임의의 함수를 적용하여 원하는 값을 얻을 수 있다. apply메서드를 적용할 수 있는 여러 문제 상황을 구체적으로 설명하면서 소개하겠다. 먼저, 자연어처리의 NER task에서 다음과 같은 Dataframe을 얻었다고 가정해보자. 1) 특정 컬럼값의 모든 원소에 함수를 적용하고자 할 경우 data['Sentence #']의 컬럼에서 나는 문장 번호를 따로 떼어내서 새로운 칼럼 data['number']에 넣고 싶다. 아래와 같은 함수를 만든 뒤, sent_number = lambda x: int(x.split()[..