-
[parquet] 파일 나눠서 저장하기Data miner/Development log 2023. 3. 25. 19:55728x90
parquet은 hadoop에서 열 우선으로 열의 연속 요속가 메모리에 나란히 저장되는 데이터 포맷형태다. csv파일이 행 중심 데이터 저장 포맷형태로, sample 중심이라면 parquet은 피처(열) 중심이라고 볼 수 있다. 대용량 데이터를 처리하는데 있어서 하나의 대용량 데이터 파일을 여러개의 parquet의 파일로 나눌 때 사용하는 함수는 다음과 같다.
#split the data import dask.dataframe as dd train = dd.read_parquet('./나누고자하는 파일 경로 입력/train.parquet') train.repartition(6).to_parquet('./나눈 파일 저장하고자 하는 경로 입력/split/') # 나누고자 하는 파일 개수, N 숫자 repartition(N)
'Data miner > Development log' 카테고리의 다른 글
[SQL] SUB QUERY (0) 2023.04.06 [SQL] JOIN TUNING / NL JOIN (0) 2023.04.03 [torch] torch.einsum 함수 이해하기 (1) 2022.11.15 [Spark] [python] Spark Application (0) 2021.03.05 [Spark] [python] 구조적 API 기본 연산 (0) 2021.03.01