ML
-
[parquet] 파일 나눠서 저장하기Data miner/Development log 2023. 3. 25. 19:55
parquet은 hadoop에서 열 우선으로 열의 연속 요속가 메모리에 나란히 저장되는 데이터 포맷형태다. csv파일이 행 중심 데이터 저장 포맷형태로, sample 중심이라면 parquet은 피처(열) 중심이라고 볼 수 있다. 대용량 데이터를 처리하는데 있어서 하나의 대용량 데이터 파일을 여러개의 parquet의 파일로 나눌 때 사용하는 함수는 다음과 같다. #split the data import dask.dataframe as dd train = dd.read_parquet('./나누고자하는 파일 경로 입력/train.parquet') train.repartition(6).to_parquet('./나눈 파일 저장하고자 하는 경로 입력/split/') # 나누고자 하는 파일 개수, N 숫자 repar..
-
[ML] 주요 Metric : Confusion matrix, Accuracy, Precision, RecallData miner/Information Retrieval 2021. 12. 15. 17:42
- Confusion Matrix (혼동 행렬) : 샘플 데이터의 실제값과 모델의 예측값을 한 눈에 볼 수 있는 표이다. 많은 매트릭이 Confusion matrix의 기반으로 구해진다고 보면 된다. 이진 분류를 기반으로 생각해 보았을 때 실제 클래스 - 예측 클래스 구분은 다음의 네 가지 경우로 나뉠 수 있다. 앞 부분은 모델이 예측한 클래스가 맞는지 틀리는지 여부를 나타내며 (T: True 옳게 분류한 경우, F: False 틀리게 분류한 경우) 뒷 부분은 모델이 예측한 클래스의 레이블을 뜻한다(P: positive 모델이 중점으로 맞추고자 하는 클래스, N: negative 그 외의 클래스)고 생각하면 편리하다. TP (True Positive) : 모델이 Positive class에 해당하는 경우..