python

Colab에서 Spark 설치하기!! (23/05/02 기준)

쵸비 2023. 5. 3. 14:08
728x90

Spark 실습을 어떻게 할까 고민하던 와중 Colab에서도 가능한가? 싶어서 시도 해본 결과이다.

Spark 환경을 빠르게 만들고싶다면 유용할 것 같으니 급하면 사용해보자!

 

콜웹 사용방법은 구글 드라이브에 접속하여 찾아보면 쉽게 들어갈 수 있으니 생략하고 바로 소스코드 먼저 확인해보자

 

구글 콜웹을 키고 런타임 유형 변경에서 GPU로 바꿔주면 더 빠르다

순차적으로 코드를 실행해준다

!pip install pyspark
!pip install -U -q PyDrive
!apt install openjdk-8-jdk-headless -qq
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" #환경변수 설정
import pyspark
import pyspark.sql  as pyspark_sql
import pyspark.sql.types as pyspark_types
import pyspark.sql.functions  as pyspark_functions
from pyspark import SparkContext, SparkConf
# create the session
conf = SparkConf().set("spark.ui.port", "4050")

# create the context
sc = pyspark.SparkContext(conf=conf)
spark = pyspark_sql.SparkSession.builder.getOrCreate()

문제 없이 잘 동작했다면..

샘플 데이터를 업로드 해서 실습환경에서 데이터를 가지고 놀아보자~

728x90

'python' 카테고리의 다른 글

[Django] 3. html 파일용 templates 설정  (0) 2023.07.07
[Django] 2. 라우팅  (0) 2023.07.04
[Django] 1. 설치  (0) 2023.07.04
어드민 페이지 크롤링, 이것이 해킹?!  (1) 2022.10.26