본문 바로가기

hadoop

(11)

HADOOP_MASTER 프로퍼티 이전 프로젝트에서 네임노드에서 하둡설정파일을 변경후 데이터노드에 일일이 scp를 이용해서 복사한 기억이 나는데, 무지에 의한 노가다 였구나.책 Hadoop.The.Definitive.Guide 3rd 에서 설정부분을 꼼꼼히 살펴보다보니, hadoop-env.sh 파일에 HADOOP_MASTER라는 속성을 지정하면 자동으로 마스터노드와 싱크를 맞추어 준다. 굳이예요~conf/hadoop-env.sh 내에 다음과 같은 속성을 설정한다. (디폴트는 설정 x)export HADOOP_MASTER=hadoop@master:/home/hadoop/hadoop-1.0.3hadoop-dameon.sh 파일을 살펴보면 rsync를 통해 설정파일 동기화를 수행한다. 그러나 클러스터가 너무 큰 환경에서는 데몬 시작시 동시에..

클라우데라 플룸(Flume) 2 -1 이제 대충 감을 잡았으니까.하둡과 연계해서 간단한 프로그램을 작성해봐야겠다.전달되는 로그들을 HDFS에 저장하고 저장된 로그를 맵리듀스를 이용해서 분석하는 정도? 현재 Flume은 하둡 0.20.2, 0.23를 지원한다.우선 확인해볼 것이 있다. 배치형식의 로그파일을 전달하는 것이아니라 실시간으로 생성되는 로그를 Flume은 어떻게 전달하고 있는지 확인해 봐야겠다. 아니면 별도로 구현을 해야하는 지 여부도~~ 지원하는 source 들을 살펴봐야 보면~~ 아직까지는 직접 지원해주는 것은 없는 듯하다. tail을 사용해서 로그파일에 새로운 데이터가 들어오면 이를 전달하도록 해서 비슷하게 동작하도록 해봐야겠다.source 타입에 exec 을 이용해서 tail -F 로 로그파일을 모니터링 한다. foo.sour..

클라우데라 플룸(Flume) 1 ※ 링크들은 수시로 변경되므로 오류가 발생할 수도 있음. 주의사항: 해보면서 글을 쓰고 있으므로 잘못된 내용이 상당할 수 있음. Flume에 관한 많은 문서를 클라우데라에서 제공해 준다.https://cwiki.apache.org/confluence/display/FLUME/Index 설치 시에도 각 운영체제 환경마다 별도의 패키지를 이용하여 설치할 수 있다.https://ccp.cloudera.com/display/CDH4B2/Flume+Installation https://ccp.cloudera.com/display/CDHDOC/Flume+1.x+Installation 버전 0.9 에서는 Agent, Master, Collector를 별도를 실행한 듯 하지만, 버전 1.1 부터는 Agent만 실행한다..

Hadoop YARN (MapReduce 2) Hadoop 0.23.0 부터 새로운 Map/Reduce 구현 방법을 지원하는데 Hadoop The Definitive Guide 3rd 를 발번역해서 살펴봐야겠다.~ YARN (MapReduce 2) 4000노드 이상의 큰 클러스터에 대해 이전 방식의 맵리듀스 시스템은 확장성 병목이 생긴다. 그래서 야후에서는 맵리듀스의 다음 세대를 설계하였다. 그 결과가 YARN (Yet Another Resource Negotiator 또는 YARN Apllication Resource Negotiator) 이였다. YARN은 잡트래커의 책임을 분리된 엔티티로 나누어서 기존 맵리듀스의 확장성 단점을 극복하고 있다. 잡트랙커는 잡 스케쥴링(태스크를 태스크트랙커들에게 매칭)과 태스크 진행상태 모니터링을 다룬다.(태스크의..

Cloudera Hadoop 설치시 Missing Dependency: JDK 오류 발생 hadoop-0.20-0.20.2+923.21-1.noarch from cloudera-cdh3 has depsolving problems --> Missing Dependency: jdk >= 1.6 is needed by package hadoop-0.20-0.20.2+923.21-1.noarch (cloudera-cdh3) Error: Missing Dependency: jdk >= 1.6 is needed by package hadoop-0.20-0.20.2+923.21-1.noarch (cloudera-cdh3) JDK RPM 버전을 Sun에서 받아서 설치하자. yum install java로 설치하면 rpm dependency를 제대로 구분 못하는 듯하다.

Tuning for performance in hadoop Hadoop in Action 1. combiner를 가지고 네트워크 트래픽 줄이기 2. 입력 데이터 양을 줄이기 3. 압축 사용하기 4. JVM 재사용 디폴트로, TaskTracker는 Mapper와 Reducer를 분리된 JVM 으로 수행한다. 태스크 시작 비용이 상당히 클 수 있으며 이를 해결하기 위해서 job.reuse.jvm.num.tasks 1보다 큰값 또는 -1 (no limit) 5. speculative execution 을 가지고 실행하기. map 또는 reduce task가 실행중 오류가 발생한 경우 또는 너무 느린 경우 새로운 태스크를 수행하고 기존 태스크를 kill한다. 기본 설정이 이렇게 동작하도록 되어 있으며 이를 수정하기 위해서 다음 속성들을 FALSE로 지정한다. mapre..

하둡 설치 2 분산모드로 설치해 보기 리눅스 서버(CentOs 5.6) - 마스터 윈도우 (cygwin) - 슬레이브 마스터 설정 리눅스에 jdk 설치 하자. 기존에 설치되어 있는 jdk도 있지만 lib 폴더 설정등이 불편해서 자바 홈피에서 RPM 버전을 받아서 설치했다. vi /etc/profile.d/java.sh 에서 경로 변경. export JAVA_HOME=/usr/java/jdk1.6.0_26 export PATH=$JAVA_HOME/bin:$PATH source /etc/profile.d/java.sh /etc/hosts 파일을 변경하자. 192.168.1.1 master 192.168.1.2 slave1 192.168.1.1 - Linux 아이피 192.168.1.2 - 윈도우즈 아이피 ssh 설정은 리..

하둡 설치 1 뭐니 뭐니해도 프로그래밍을 하기위해서는 환경 구축을 하는 것이 최우선 과제! 일단 Hadoop을 설치해보자. 내가 설치한 버전은 현재 가장많은 문서들이 돌아다니는 Hadoop 0.20.2 + Hbase 0.20.6 이다. 개발 초기에 별도의 리눅스 서버가 없이 시작을 하게 되서 우선 찾아본 것이 Windows에 하둡을 설치해 보는 것이었다. 윈도우에서는 cygwin을 설치한 후 하둡을 설치하는 방법을 사용한다. 이를 설명해 주는 아주 좋은 사이트(무려 화면 캡쳐 이미지까지 제공한다.)가 있으며 번역한 사이트도 있어서 이를 참조하였다. http://v-lad.org/Tutorials/Hadoop/00%20-%20Intro.html 친절하게 번역해준 사이트는 http://jmhadoop.springnote...

이전 1 2 다음

티스토리툴바