S/W Development/Hadoop2010. 8. 22. 16:43
이 글은 Mac OS X 10.6 Snow Leopard에서 하둡(Hadoop) 0.20.2 버전을 설치하는 방법에 관한 글이다. 맥은 마크 커널과 BSD에 기반하여 만들어 졌기 때문에, 단순히 하둡 패키지를 다운로드 받아 설치하고, 몇 가지 설정만 하면 바로 사용할 수 있다. 설치와 설정이 제대로 되었는지 확인하기 위해 샘플 예제 중 하나인 워드카운트(입력 파일내에 있는 단어의 빈도수를 계산하는 맵리듀스 프로그램)를 실행해 봄으로써 결과를 확인할 수 있다.

다음과 같은 순서로 진행된다.
1. 패키지 다운로드 받기
2. 설치하기
3. 환경설정 파일 수정하기
3. 워드카운트 프로그램 실행하기

1. 패키지 다운로드 받기
하둡은 아파치 루씬(Apache Lucene)의 하부 프로젝트이기 때문에, 구글에서 하둡을 검색하면 공식 사이트가 아파치 파운데이션의 하위 사이트로 이동한다. 릴리즈 관련된 링크를 클릭하면 아래와 같은 화면(http://www.apache.org/dyn/closer.cgi/hadoop/core/)을 볼 수 있다. 여기에는 다양한 밀러링(Mirroring) 사이트가 존재하므로, 맘에 드는 사이트를 선택하고, 현재(2010년 8월 22일) 안정화된 0.20.2 버전을 다운로드 받는다.


2. 설치하기
하둡 설치 방법은 아주 간단하다. 단순히 압축을 푸는 것만으로 설치가 완료된다. 다운로드 받은 파일을 적당한 위치에 압축을 푼다. 명령어는 다음과 같다.
$tar xvfz hadoop-0.20.2.tar.gz


3. 환경설정 파일 수정하기
자신의 홈디렉토리로 이동한 다음 에디터를 이용하여 .profile 파일을 다음과 같이 #pathes 부분을 추가한다. 만약, 파일이 존재하지 않는다면 생성한다.  HADOOP_HOME을 제외한 나머지는 기본적으로 맥 설치시 설치된 파일들이다.


4. 워드카운트 프로그램 실행하기
워드카운트 프로그램은 문자 그대로 입력된 파일 내에 있는 단어의 빈도수를 계산하여 출력해주는 맵리듀스(map/reduce) 프로그램이다. 하둡 샘플 예제는 워드카운트 외에도 join, grep, randomtextwriter 등 다양한 예제가 있다. 이 단계에서 아래와 같은 입력 파일을 만들고, 하둡을 실행하고 그 결과를 확인할 것이다.


4.1 입력 파일(input.txt)
a
b
c
d
a
b
a
b
a
a

4.2 명령어
hadoop jar /usr/share/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount ~/Projects/WordCount/input.txt ~/Projects/WordCount/output.txt



4.3 결과 확인
아래 화면과 같이 입력된 문자들의 빈도수가 정확히 계산되어 출력된 것을 확인할 수 있다. 명령어에서 지정된 출력 파일의 위치를 디렉토리 삼아 그 아래에 분산처리된 결과가 저장된다. 현재 Standalone환경에서 실행되었으므로 part-r-00000라는 파일 하나만 생성되었다.


우리는 이제 하둡을 다운로드 받아 설치하고 실행할 수 있도록 환경 파일을 설정할 수 있으며, 예제를 실행하여 하둡이 제대로 실행되는지 확인할 수 있게 되었다.
Posted by ILTAL