[parquet] 파일 나눠서 저장하기

Data miner/Development log 2023. 3. 25. 19:55

728x90

parquet은 hadoop에서 열 우선으로 열의 연속 요속가 메모리에 나란히 저장되는 데이터 포맷형태다. csv파일이 행 중심 데이터 저장 포맷형태로, sample 중심이라면 parquet은 피처(열) 중심이라고 볼 수 있다. 대용량 데이터를 처리하는데 있어서 하나의 대용량 데이터 파일을 여러개의 parquet의 파일로 나눌 때 사용하는 함수는 다음과 같다.

#split the data

import dask.dataframe as dd
train = dd.read_parquet('./나누고자하는 파일 경로 입력/train.parquet')
train.repartition(6).to_parquet('./나눈 파일 저장하고자 하는 경로 입력/split/')

# 나누고자 하는 파일 개수, N 숫자
repartition(N)

'Data miner > Development log' 카테고리의 다른 글

[SQL] SUB QUERY (0)	2023.04.06
[SQL] JOIN TUNING / NL JOIN (0)	2023.04.03
[torch] torch.einsum 함수 이해하기 (1)	2022.11.15
[Spark] [python] Spark Application (0)	2021.03.05
[Spark] [python] 구조적 API 기본 연산 (0)	2021.03.01

ABOUT ME

Cara's Moving Cara's Moving

'Data miner > Development log' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Data miner > Development log' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바