Hadoop이란? 하둡(Hadoop)은 대용량 데이터를 처리하고 관리할 수 있는 오픈 소스 분산 컴퓨팅 시스템. 여러대의 컴퓨터로 이루어진 클러스터에서 데이터를 저장하고 처리하는데 사용되며, 빅 데이터를 분산하여 효율적인 처리가 가능하도록 해준다. 한 대의 컴퓨터로 처리하기 어려운 대규모 데이터를 쪼개 여러 기기에 나눠 처리함으로써 병렬적으로 데이터 처리가 가능해지고, 빠른 처리 시간을 달성할 수 있다. 주요 구성요소로는 HDFS(Hadoop Distributed File System)와 MapReduce가 있으며, 다양한 데이터 처리 작업에 적용됩니다. HDFS는 실습하면서 자주 보게된다. JAVA를 설치하는 이유는 Hadoop이 JAVA기반으로 이루워진 분산 데이터 처리 프레임워크이기 때문에 설치가 ..