Python
-
[python] [pandas] 특정 칼럼에 속한 unique한 값의 개수 구하기Data miner/Development log 2021. 1. 22. 16:16
domain, count vk.com 3 twitter.com 2 facebook.com 1 google.com 1 위와 같은 데이터프레임이 있다고 하자. 각 도메인에 속하는 unique한 ID값의 개수가 궁금하다. 'vk.com'의 도메인에 속하는 구분가능한 ID의 개수는 3개다. ID, domain 123, 'vk.com' 123, 'vk.com' 123, 'twitter.com' 456, 'vk.com' 456, 'facebook.com' 456, 'vk.com' 456, 'google.com' 789, 'twitter.com' 789, 'vk.com' 다음의 코드를 사용하면 된다. nunique() 함수를 사용한다. df.groupby('domain')['ID'].nunique()
-
[python] [pandas] 객체에 함수 적용하기. applyData miner 2020. 4. 3. 00:55
Dataframe의 apply 메서드는 주어진 Dataframe에서 데이터를 사용자의 의도에 따라서 재가공하고자 하는 경우 사용된다. Dataframe의 1차원 배열이나의 각 행/열의 원소들에 임의의 함수를 적용하여 원하는 값을 얻을 수 있다. apply메서드를 적용할 수 있는 여러 문제 상황을 구체적으로 설명하면서 소개하겠다. 먼저, 자연어처리의 NER task에서 다음과 같은 Dataframe을 얻었다고 가정해보자. 1) 특정 컬럼값의 모든 원소에 함수를 적용하고자 할 경우 data['Sentence #']의 컬럼에서 나는 문장 번호를 따로 떼어내서 새로운 칼럼 data['number']에 넣고 싶다. 아래와 같은 함수를 만든 뒤, sent_number = lambda x: int(x.split()[..
-
[python] parserData miner/Developer 2019. 12. 16. 14:56
코아일체 : 코딩과 한 몸이 되고 싶은 글쓴이의 간절한 소망 논문 리뷰 뿐만이 아니라 짤 써진 코드도 꾸준히 눈팅해야 겠다는 마음을 먹고서 시작하게된 포스팅- 오늘 다루고자 하는 내용은 parser에 대한 부분이다. Github에서 참고하는 코드를 보면, main 코드 부분에 꼭 argparse를 사용한 부분이 있다. 그리고 이는, 나중에 python 명령 프롬프트 창을 사용하여 main 함수를 실행하는데 있어서 명령 프롬포트에 입력된 인자들을 받아서 각각의 파서 트리에 할당시키는 역할을 하게 된다. 특히, argparse 모듈은 인자를 입력, 파싱하게 해주며, 잘못된 인자 입력시 사용법 설명, 예외 처리까지 해주는 라이브러리다. 아래의 경우를 통해서 이해해보자. 1) 먼저 argparse.Argment..