빅데이터 분석 환경 구축(Docker 활용) 7

#6 Zookeeper 클러스터 설정 및 Hadoop & Yarn 클러스터 실행

인스턴스(컨테이너) 복제가 완료되었으니 Zookeeper 클러스터를 설정해주자. myid 파일 편집 : nn1,nn2,dn1 서버에 myid를 각각 1,2,3으로 편집 # nn2 서버에서 vim /usr/local/zookeeper/data/myid # 아래 내용으로 수정 후 저장 2 # nn1으로 이동 exit # dn1 서버에서 vim /usr/local/zookeeper/data/myid # 아래 내용으로 수정 후 저장 3 Zookeeper 실행 : nn1, nn2, dn1 서버에서 각각 실행한다. # nn1 서버 zookeeper 시작 /usr/local/zookeeper/bin/zkServer.sh start # nn2 서버 zookeeper 시작 /usr/local/zookeeper/bin/z..

#5 컨테이너 복제 및 네트워크 구축

이번에는 이미지를 생성하여 복제를 해보자. 5개의 컨테이너를 생성하여 두개는 Namenode, 세게는 Datanode로 사용할 예정이다. [ Docker 컨테이너 나가기 & 이미지 만들기 ] Docker 컨테이너에서 나가기 위해 Ctrl + P 키를 누르고 바로 Ctrl + Q 키를 누르면 됩니다. #이미지 만들기 [이름이 test라는 컨테이너로 test 이미지 만들기] docker commit test test #이미지 확인 docker images [ Docker network 설정 ] : 특정 네트워크 대역을 지정하여 도커 네트워크를 생성한다. docker network create --gateway 172.19.0.1 --subnet 172.19.0.0/16 testnet Docker networ..

#4 SSH Key 생성

이번에는 컨테이너들과의 통신을 해줄 SSH Key를 생성해보자 [SSH Key 설정을 위한 설치] Ubuntu apt-get 업데이트 및 라이브러리 설치 (#1에서 이미 했다면 Pass) apt-get update apt-get upgrade -y apt-get install -y curl apt-get install -y openssh-server openssh-client apt-get install -y rsync wget vim iputils-ping htop # 6. Asia # 69. Seoul [ SSH 설정 ] ssh key 생성 # ssh key 생성 ssh-keygen -t rsa ssh키가 정상적으로 동작되면 아래와 같이 이상하게 생긴 key가 보인다. # authorized_keys..

#3 Spark & Python & Zookeeper 설치

스파크 클러스터를 사용하기 위해서는 spark-env.sh, spark-defaults.conf, workers 를 편집하면 된다. [ Spark 설치 ] Apache Spark 3.2.1 설치 및 압축 해제 # 설치 관리용 디렉토리 이동 cd /download # Spark 3.2.1 설치 [Not Found 뜰 경우 접속하여 맞는 버전 탐색] wget # Spark 3.2.1 압축 해제 tar -xzvf spark-3.2.4-bin-hadoop3.2.tgz -C /usr/local # Spark 디렉토리 이름 변경 mv /usr/local/spark-3.2.4-bin-hadoop3.2 /usr/local/spark [ Python & PySpark 설치 ] Python3 설치 및 파이썬 라이브러리 설..

#2 JAVA 설치 및 Hadoop 설치

Hadoop이란? 하둡(Hadoop)은 대용량 데이터를 처리하고 관리할 수 있는 오픈 소스 분산 컴퓨팅 시스템. 여러대의 컴퓨터로 이루어진 클러스터에서 데이터를 저장하고 처리하는데 사용되며, 빅 데이터를 분산하여 효율적인 처리가 가능하도록 해준다. 한 대의 컴퓨터로 처리하기 어려운 대규모 데이터를 쪼개 여러 기기에 나눠 처리함으로써 병렬적으로 데이터 처리가 가능해지고, 빠른 처리 시간을 달성할 수 있다. 주요 구성요소로는 HDFS(Hadoop Distributed File System)와 MapReduce가 있으며, 다양한 데이터 처리 작업에 적용됩니다. HDFS는 실습하면서 자주 보게된다. JAVA를 설치하는 이유는 Hadoop이 JAVA기반으로 이루워진 분산 데이터 처리 프레임워크이기 때문에 설치가 ..

#1 Docker 컨테이너 접속 및 패키지 설치

컨테이너에 먼저 접속을 해보자 가장 안정적인 ubuntu LTS버전을 찾다가 20버전이 좋다고해 선택을 했다. docker run -it --name hadoop ubuntu:20.04 가장 먼저 업데이트를 해준다. apt-get update 그리고 필요한 패키지를 설치해준다. 나중에 혹시 막히게 되면 패키지가 없어서 생기는 문제가 있을 수 있으니 찾아서 install 해주면 된다. #ifconfig 명령어 사용목적 apt-get install net-tools #vi편집기 사용목적 apt-get install vim #ping 테스트 사용목적 apt-get install iputils-ping #wget 명령어 사용목적 apt-get install wget #curl 명령어 사용목적 apt-get in..

[시작하기 앞서]

빅데이터 분석 환경인 Zeppelin을 사용해보고 싶었다. Spark도 사용해보고 싶었고 분산 처리에 대해 흥미가 높아질 시기에 "처음부터 구축을 해볼까?"라는 마음에서 출발을 했다. AWS에서 인스턴스를 두고 실습해보고 싶었지만 가난한 나에겐 부담스러웠고 다른 방법이 없을까 하다가 Docker 컨테이너를 활요해서 어디까지 가능한지 테스트 해보고 싶었다. 그렇게 나의 무모한 도전이 시작이 되었고 AWS에서 실습을 해보신 유튜브 빅공잼님의 영상을 참고해서 만들었다. 감사합니다 빅공잼님