구조적API
-
[Spark] [python] 구조적 API 기본 연산Data miner/Development log 2021. 3. 1. 17:32
구조적 API 기본 연산 1) 스키마 DataFrame의 컬럼명과 데이터 타입을 결정 DataFrame의 컬럼명과 데이터 타입을 정의. 데이터를 추출(Extract), 변환(Transform), 적재(Load)를 수행하는 작업에 스파크를 사용한다면, 스파크를 정의해야 한다. 정의하지 않을 경우, 스키마 추론 과정에서 스키마를 임의로 결정할 수 있다. 스키마는 여러 개의 StructField 타입 필드로 구성된 StructType 객체 StructType(컬럼의 이름, 데이터 타입, 컬럼의 값이 null값일 수 있는지 지정 True/False 및 메타데이터 지정) example_of_Schema = StructType([StructType(StructField("Specific_Column_name", S..