본문 바로가기

mapreduce

(3)

Hadoop YARN (MapReduce 2) Hadoop 0.23.0 부터 새로운 Map/Reduce 구현 방법을 지원하는데 Hadoop The Definitive Guide 3rd 를 발번역해서 살펴봐야겠다.~ YARN (MapReduce 2) 4000노드 이상의 큰 클러스터에 대해 이전 방식의 맵리듀스 시스템은 확장성 병목이 생긴다. 그래서 야후에서는 맵리듀스의 다음 세대를 설계하였다. 그 결과가 YARN (Yet Another Resource Negotiator 또는 YARN Apllication Resource Negotiator) 이였다. YARN은 잡트래커의 책임을 분리된 엔티티로 나누어서 기존 맵리듀스의 확장성 단점을 극복하고 있다. 잡트랙커는 잡 스케쥴링(태스크를 태스크트랙커들에게 매칭)과 태스크 진행상태 모니터링을 다룬다.(태스크의..

Hadoop - 마소 10.3월호 요약 HDFS는 64MB 단위의 블록으로 쪼개서 분산 저장. 블록정보를 조회 관리 - 네임노드 실제 블록을 저장하는 기능 - 데이터 노드 3개의 서버에 복제해서 저장한다. 저장방법은 파이프라인 방식 네임노드로 부터 클라이언트가 파일을 저장할 데이터 노드들을 가져온 후 블럭을 A노드에 저장 -->A 노드에서 B노드로 복제 저장 --> B노드에서 C노드로 복제 저장 TCP 소켓을 통해 데이터를 읽기/쓰기를 위한 통신 수행 RPC를 통해 클라이언트와 네임노드간 통신이나 데이터노드와 네임노드간 컨트롤, 관리를 위한 통신 수행 설정 파일 설정파일에 대한 디폴트 값은 xxx-default.xml에 존재한다. 디폴트 값을 변경하려면 ${HADOOP_HOME}/conf/xxx-site.xml 파일에 설정하면 된다. hado..

How MapReduce Works Hadoop : The Definitive Guide 책 6장 내용을 일부 발췌해서 발번역함. 이미 한글판 서적이 나왔지만 정리한다는 생각으로 번역~(3rd Edition을 요즘 보고 있어서 내용을 수정 추가~) 이 장에서 우리는 하둡에서 맵리듀스가 어떻게 동작하는지 상세하게 볼 것이다.이는 다음 두 장에서 살펴볼 좀 더 개선된 맵리듀스 프로그램 만들기 위한 좋은 지침을 제공한다. Anatomy of a MapReduce Job Run 당신은 한 라인 코드를 가지고 맵리듀스 job을 실행할 수 있다. : JobClient.runJob(conf). 매우 짧다. 그러나 이 뒤에는 수많은 처리가 숨겨져 있다. 이번 섹션은 하둡이 job을 수행하기위한 절차들을 알아본다.(Hadoop이 0.2로 버전업되면서 AP..

이전 1 다음

티스토리툴바