Spark
-
[Spark] [python] Spark ApplicationData miner/Development log 2021. 3. 5. 16:04
Spark Application SparkSession Spark Application 을 가동하기 위해서 가장 먼저 생성해야 하는 것 builder 메서드를 사용하면 안전하게 생성 가능 SparkSession 실행 후 스파크 코드 실행 가능/ 저수준 API 실행 가능 SparkContext 스파크 클러스터에 대한 연결을 나타냄 SparkSession 생성시 getOrCreate를 통해 직접 초기화 from os.path import join, abspath import collections from pyspark import StorageLevel from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql.funct..
-
[Spark] [python] 구조적 API 기본 연산Data miner/Development log 2021. 3. 1. 17:32
구조적 API 기본 연산 1) 스키마 DataFrame의 컬럼명과 데이터 타입을 결정 DataFrame의 컬럼명과 데이터 타입을 정의. 데이터를 추출(Extract), 변환(Transform), 적재(Load)를 수행하는 작업에 스파크를 사용한다면, 스파크를 정의해야 한다. 정의하지 않을 경우, 스키마 추론 과정에서 스키마를 임의로 결정할 수 있다. 스키마는 여러 개의 StructField 타입 필드로 구성된 StructType 객체 StructType(컬럼의 이름, 데이터 타입, 컬럼의 값이 null값일 수 있는지 지정 True/False 및 메타데이터 지정) example_of_Schema = StructType([StructType(StructField("Specific_Column_name", S..
-
[Spark] 아파치 스파크 개념 정리중Data miner/Development log 2021. 2. 17. 18:32
스파크는 컴퓨터 클러스터에서 작업을 조율하는 프레임워크. 클러스터의 데이터 처리 작업을 관리 및 조율. 데이터프레임의 추상화를 통해 대용량의 데이터 처리 가능. 스트림처리, 그래프처리, SQL, 머신러닝 기능 제공 스파크 애플리케이션은 드라이버 프로세스(driver process) 와 익스큐터 프로세스(Executors)로 구성 드라이버 프로세스는 스파크 애플리케이션의 중심 본체로서, main()함수 실행 및 SparkContext를 생성함 익스큐터 프로세스는 드라이버 프로세스가 할당한 작업을 수행. 드라이버가 할당한 코드 실행/ 진행 상황을 다시 드라이버 노드에 보고 스파크 스트리밍 : 다양한 데이터 소스에서 유입되는 실시간 스트리밍 데이터를 처리하는 프레임워크 장애가 발생하면 연산 결과를 자동으로 복..