본문 바로가기

전체 글

(89)
HIVE 0.9.0, HBASE 0.94.0 버그 Hive에서 Insert까지는 되는데 HBASE 0.94.0 버그로 인해 SELECT에서 다음과 같은 예외가 발생한다.Failed with exception java.io.IOException:java.lang.NullPointerException 버전 0.94.1 에서 버그 수정했음
머신 하나에 Zookeeper 설치하기 머신 하나에 Zookeeper 설치하기 Zookeeper를 실행하려면 최소 3개의 호스트를 필요로 한다.Zookeeper JMX를 살펴보려고 하는데 다중 머신 환경이 안된다. VMWare 설치하기도 구찮고 이래저래 지금 환경이 안되서. 하나의 머신에 Zookeeper를 설치해 보려고한다.살짝만 설정을 바꿔서 성공했는데 알고보니 http://zookeeper.apache.org/doc/r3.1.2/zookeeperStarted.html 이곳에 이미 나와있었다.검색의 생활화 필요!NoteIf you want to test multiple servers on a single machine, specify the servername as localhost with unique quorum & leader ele..
HBase 클라이언트와 통신 플로우 HBase 클라이언트와 통신 플로우클라이언트는 특정 row에 접근을 시도할 때 Zookeeper와 연결한다.-ROOT- region을 호스트하는 서버 이름을 가져온다.-ROOT- 정보를 사용하여 클라이언트는 .META. 테이블 region을 호스트하는 서버 이름을 가져온다..META. 서버에 연결하여 row key를 포함하고 있는 region 을 가진 서버 이름을 가져온다. -ROOT-, .META.를 특별한 용도로 사용되어 카탈로그 테이블이라고 부른다.1) 클라이언트 ---> Zookeeper 2) 클라이언트 ---> Root Region Server3) 클라이언트 ---> Meta Region Server다음과 같이 호출하면 1), 2), 3) 과정을 처리하게됨HTable table = new HTa..
HADOOP_MASTER 프로퍼티 이전 프로젝트에서 네임노드에서 하둡설정파일을 변경후 데이터노드에 일일이 scp를 이용해서 복사한 기억이 나는데, 무지에 의한 노가다 였구나.책 Hadoop.The.Definitive.Guide 3rd 에서 설정부분을 꼼꼼히 살펴보다보니, hadoop-env.sh 파일에 HADOOP_MASTER라는 속성을 지정하면 자동으로 마스터노드와 싱크를 맞추어 준다. 굳이예요~conf/hadoop-env.sh 내에 다음과 같은 속성을 설정한다. (디폴트는 설정 x)export HADOOP_MASTER=hadoop@master:/home/hadoop/hadoop-1.0.3hadoop-dameon.sh 파일을 살펴보면 rsync를 통해 설정파일 동기화를 수행한다. 그러나 클러스터가 너무 큰 환경에서는 데몬 시작시 동시에..
클라우데라 플룸(Flume) 2 -1 이제 대충 감을 잡았으니까.하둡과 연계해서 간단한 프로그램을 작성해봐야겠다.전달되는 로그들을 HDFS에 저장하고 저장된 로그를 맵리듀스를 이용해서 분석하는 정도? 현재 Flume은 하둡 0.20.2, 0.23를 지원한다.우선 확인해볼 것이 있다. 배치형식의 로그파일을 전달하는 것이아니라 실시간으로 생성되는 로그를 Flume은 어떻게 전달하고 있는지 확인해 봐야겠다. 아니면 별도로 구현을 해야하는 지 여부도~~ 지원하는 source 들을 살펴봐야 보면~~ 아직까지는 직접 지원해주는 것은 없는 듯하다. tail을 사용해서 로그파일에 새로운 데이터가 들어오면 이를 전달하도록 해서 비슷하게 동작하도록 해봐야겠다.source 타입에 exec 을 이용해서 tail -F 로 로그파일을 모니터링 한다. foo.sour..
클라우데라 플룸(Flume) 1 ※ 링크들은 수시로 변경되므로 오류가 발생할 수도 있음. 주의사항: 해보면서 글을 쓰고 있으므로 잘못된 내용이 상당할 수 있음. Flume에 관한 많은 문서를 클라우데라에서 제공해 준다.https://cwiki.apache.org/confluence/display/FLUME/Index 설치 시에도 각 운영체제 환경마다 별도의 패키지를 이용하여 설치할 수 있다.https://ccp.cloudera.com/display/CDH4B2/Flume+Installation https://ccp.cloudera.com/display/CDHDOC/Flume+1.x+Installation 버전 0.9 에서는 Agent, Master, Collector를 별도를 실행한 듯 하지만, 버전 1.1 부터는 Agent만 실행한다..
Hadoop YARN (MapReduce 2) Hadoop 0.23.0 부터 새로운 Map/Reduce 구현 방법을 지원하는데 Hadoop The Definitive Guide 3rd 를 발번역해서 살펴봐야겠다.~ YARN (MapReduce 2) 4000노드 이상의 큰 클러스터에 대해 이전 방식의 맵리듀스 시스템은 확장성 병목이 생긴다. 그래서 야후에서는 맵리듀스의 다음 세대를 설계하였다. 그 결과가 YARN (Yet Another Resource Negotiator 또는 YARN Apllication Resource Negotiator) 이였다. YARN은 잡트래커의 책임을 분리된 엔티티로 나누어서 기존 맵리듀스의 확장성 단점을 극복하고 있다. 잡트랙커는 잡 스케쥴링(태스크를 태스크트랙커들에게 매칭)과 태스크 진행상태 모니터링을 다룬다.(태스크의..
[스톰] Setting up development environment 원문: https://github.com/nathanmarz/storm/wiki/Setting-up-development-environment Setting up development environment이 페이지는 스톰 개발 환경을 설정하기 위해 무엇이 필요한지에 대한 개요를 서술한다. 요약해서, 다음 과정들이다. 1. 스톰 릴리즈를 다운로드하고 압축을 풀고 bin/ 디렉토리를 PATH로 설정한다.2. 리모트 클러스터에서 토폴로지를 시작/중지할수 있기 위해서 ~/.storm/storm/yaml 파일에 클러스터 정보를 넣는다.좀 더 자세한 설명은 아래에 있다. What is development environment?스톰은 두 가지 동작 모드가 있다. 로컬과 리모트 모드, 로컬 모드에서 로컬 머시위 프로..