728x90
Spark 실습을 어떻게 할까 고민하던 와중 Colab에서도 가능한가? 싶어서 시도 해본 결과이다.
Spark 환경을 빠르게 만들고싶다면 유용할 것 같으니 급하면 사용해보자!
콜웹 사용방법은 구글 드라이브에 접속하여 찾아보면 쉽게 들어갈 수 있으니 생략하고 바로 소스코드 먼저 확인해보자
구글 콜웹을 키고 런타임 유형 변경에서 GPU로 바꿔주면 더 빠르다
순차적으로 코드를 실행해준다
!pip install pyspark
!pip install -U -q PyDrive
!apt install openjdk-8-jdk-headless -qq
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" #환경변수 설정
import pyspark
import pyspark.sql as pyspark_sql
import pyspark.sql.types as pyspark_types
import pyspark.sql.functions as pyspark_functions
from pyspark import SparkContext, SparkConf
# create the session
conf = SparkConf().set("spark.ui.port", "4050")
# create the context
sc = pyspark.SparkContext(conf=conf)
spark = pyspark_sql.SparkSession.builder.getOrCreate()
문제 없이 잘 동작했다면..
샘플 데이터를 업로드 해서 실습환경에서 데이터를 가지고 놀아보자~
728x90
'python' 카테고리의 다른 글
[Django] 3. html 파일용 templates 설정 (0) | 2023.07.07 |
---|---|
[Django] 2. 라우팅 (0) | 2023.07.04 |
[Django] 1. 설치 (0) | 2023.07.04 |
어드민 페이지 크롤링, 이것이 해킹?! (1) | 2022.10.26 |