Big Data Analytics with R and Hadoop Chapter3 : Integrating R and Hadoop Sang-Min Song 2015.04.09
Three ways to link R and Hadoop RHIPE RHadoop Hadoop streaming Chapter3 : Integrating R and Hadoop
Introducing RHIPE RHIPE stands for R and Hadoop Integrated Programming Environment. It means "in a moment" in Greek and is a merger of R and Hadoop. The RHIPE package uses the Divide and Recombine technique to perform data analytics over Big Data. RHIPE has mainly been designed to accomplish two goals. Allowing you to perform in-depth analysis of large as well as small data. Allowing users to perform the analytics operations within R using a lower-level language. RHIPE is a lower-level interface as compared to HDFS and MapReduce operation. RHIPE는 R과 하둡 통합 프로그래밍 환경을 의미합니다. 그리스어로 "순간에"라는 의미이며 R과 하둡을 합친 말이다 RHIPE 패키지는 빅 데이터를 통해 데이터 분석을 수행 할 수 있는 분할과 재조합 기술을 사용합니다. RHIPE는 주로 다음과 같은 두 가지 목표를 달성하기 위해 설계 되었습니다. * 만약 심도 있는 대규모의 분석뿐만 아니라 작은 데이터를 수행 할 수 있도록. * 사용자가 허용된 lower-level 언어를 이용하여 R 내에서 분석 작업을 수행한다 RHIPE는 HDFS와 MapReduce의 동작과 비교하여 하위 레벨 인터페이스이다. Chapter3 : Integrating R and Hadoop
Install Sequence Installing Hadoop. Installing R. Installing protocol buffers. Setting up environment variables. Installing rJava. Installing RHIPE. RHIPE는 R과 하둡의 커넥터이기 때문에, 우리는 하둡과 R은 우리의 시스템 또는 다음과 같은 순서로 우리의 클러스터에 설치되어 있어야합니다 : Chapter3 : Integrating R and Hadoop
Installing RHIPE Installing protocol buffers Chapter3 : Integrating R and Hadoop
Installing RHIPE Environment variables ~./bashrc file of hduser (Hadoop user) R console 하둡 라이브러리를 구성 할 경우, 우리는 자동으로 시스템에 때 사용자가 로그인을 설정 할 수 있도록 (~. / bashrc에)에 hduser (하둡 사용자)의 파일을 두 개의 변수를 설정해 주어야 한다. PKG_CONFIG_PATH 시스템에 설치된 라이브러리에 대한 정보를 검색하는 PKG - 구성 스크립트의 경로를 보유하고 환경 변수이다. LD_LIBRARY_PATH는 기본 공유 라이브러리의 경로를 유지하는 환경 변수입니다. HADOOP_HOME는 하둡 디렉토리의 위치를 지정하는 데 사용됩니다. HADOOP_BIN는 하둡의 바이너리 파일의 위치를 지정하는 데 사용됩니다. HADOOP_CONF_DIR는 하둡의 구성 파일을 지정하는 데 사용됩니다. 변수를 설정하면 특정 R 세션까지 임시 유효합니다. 우리는 R 세션이 초기화 될 때 자동으로 초기화되는 이 변수가 영구적으로 할 경우, 우리는 우리가 특정 사용자 프로파일의 .bashrc에 환경 변수를, 설정으로는 / etc / R / Renviron 파일에 변수를 설정해야 합니다. Chapter3 : Integrating R and Hadoop
Installing RHIPE The rJava package installation Installing RHIPE RHIPE는 자바 패키지이기 때문에 R 하둡 사이 Java bridge처럼 작용한다. 그래서, 우리는 RHIPE의 기능을 활성화 rJava를 설치합니다. Chapter3 : Integrating R and Hadoop
Understanding the architecture of RHIPE Rclient 는 JobTracker를 호출하는 R 애플리케이션이다. JobTracker는 초기화하고 하둡 클러스터를 통해 맵리 듀스 작업을 모니터링 하기 위한 하둡 맵리 듀스 작업의 마스터 노드입니다. TaskTracker는 하둡 클러스터의 슬레이브 노드입니다. 입력 데이터 청크를 검색하고, 그 위에 R-특정 매퍼와 리듀서를 실행 JobTracker에 의해 주어진 명령에 따라 그것은 맵리 듀스 작업을 실행합니다. 마지막으로, 아웃풋을 HDFS 디렉토리에 쓴다. HDFS는 여러 데이터 노드와 하둡 클러스터에 분산 파일 시스템이다. 이는 다양한 데이터 조작에 대한 데이터 서비스를 제공한다. Chapter3 : Integrating R and Hadoop
Word count 입력 텍스트 파일에 존재하는 모든 단어의 빈도를 식별하기 위해 정의된다. 우리는 하둡 배포판과 함께 제공되는 CHANGES.txt 파일을 사용하고이 맵리 듀스 알고리즘을 사용합니다. 다음 명령을 사용하여, 우리는 HDFS에 복사합니다. 맵 단계는 파일에서 모든 단어를 읽고 value를 모두 1로 할당하는 코드가 포함되어 있습니다. 이 리듀서의 작업과 함께, 우리는 입력 텍스트 파일의 단어의 전체 빈도수를 계산할 수 있다. Chapter3 : Integrating R and Hadoop
Word count 맵리 듀스 작업 개체 정의 : 단어 수 매퍼와 리듀서를 정의한 후, 우리는 순차적으로 매퍼와 리듀서를 호출하여 이 맵리 듀스 작업을 실행할 수 있는 드라이버 방법을 설계해야 합니다. 맵리 듀스 작업의 출력은 output_data에 저장됩니다, 우리는 R 지원 dataframe 형식으로이 출력을 변환합니다. dataframe 출력은 결과 변수에 저장 될 것이다.포맷이 다음과 같이 될 데이터 프레임 MapReduce의 출력을 표시하기 위해 : Chapter3 : Integrating R and Hadoop
Word count Chapter3 : Integrating R and Hadoop
Understanding the RHIPE function reference All these methods are with three categories Initialization, HDFS, and MapReduce operations Initialization rhinit(TRUE,TRUE) RHIPE 특별히 하둡을 통해 낮은 수준의 인터페이스를 제공하도록 설계되었습니다. 그래서 R 사용자는 HDFS에 저장된 대용량 데이터를 통해 하둡 데이터 작업을 할 때 RHIPE 패키지를 그냥 쉽게 print() 함수처럼 R에서 호출 할 수 있다. RHIPE 라이브러리에서 사용할 수 있는 함수들을 세가지 카테고리로 분류 할 수 있습니다. Chapter3 : Integrating R and Hadoop
Understanding the RHIPE function reference HDFS rhls(path) hdfs.getwd() hdfs.setwd("/RHIPE") rhput(src,dest) and rhput("/usr/local/hadoop/NOTICE.txt","/RHIPE/") rhcp('/RHIPE/1/change.txt','/RHIPE/2/change.txt') rhdel("/RHIPE/1") rhget("/RHIPE/1/part-r-00000", "/usr/local/") rhwrite(list(1,2,3),"/tmp/x") Chapter3 : Integrating R and Hadoop
Understanding the RHIPE function reference MapReduce rhwatch(map, reduce, combiner, input, output, mapred, partitioner,mapred, jobname) rhex(job) rhjoin(job) rhkill(job) rhoptions() rhstatus(job) Chapter3 : Integrating R and Hadoop
Introducing RHadoop RHadoop is available with three main R packages rhdfs, rmr, and rhbase. rhdfs is an R interface for providing the HDFS usability from the R console. rmr is an R interface for providing Hadoop MapReduce facility inside the R environment. rhbase is an R interface for operating the Hadoop HBase data source stored at the distributed network via a Thrift server. Rhadoop은 R 환경과 대용량 데이터 처리를 제공하기 위한 조작 세 R 패키지의 컬렉션이다. rhdfs는 R 콘솔에서 HDFS의 사용성을 제공하는 R 인터페이스입니다. 하둡 맵리 듀스 프로그램은 HDFS에 자신의 출력을 작성, 그것은 rhdfs 메소드를 호출하여 접근하는 것은 매우 쉽습니다.R 프로그래머는 쉽게 읽고 분산 된 데이터 파일에 쓰기 작업을 수행 할 수 있습니다. 기본적 rhdfs 패키지 HDFS에 저장된 데이터 소스를 동작 백엔드 HDFS의 API를 호출한다. RMR은 R 환경 내부 하둡 MapReduce의 기능을 제공하기위한 R 인터페이스이다. 그래서, R 프로그래머는지도에 자신의 응용 프로그램 논리를 분할하고 단계를 줄이고 RMR 방법으로 제출해야합니다. 그 후, RMR은 하둡 클러스터를 통해 R의 맵리 듀스 작업을 수행하기 위해, 등등 입력 디렉토리 출력 디렉토리, 매퍼, 감속기, 등 여러 작업 매개 변수와 하둡 스트리밍 맵리 듀스 API를 호출합니다. rhbase 드리프트는 서버를 통해 분산 네트워크에서 저장 하둡 HBase와 데이터 소스를 동작시키기위한 R 인터페이스이다.rhbase 패키지는 초기화를위한 여러 가지 방법으로 설계 / 쓰기 및 테이블 조작 작업을 읽습니다. Chapter3 : Integrating R and Hadoop
Understanding the architecture of RHadoop Since Hadoop is highly popular because of HDFS and MapReduce, Revolution Analytics has developed separate R packages, namely, rhdfs, rmr, and rhbase. 하둡은 맵리듀스와 HDFS의 높은 인기 때문에 Revolution Analytics는 별도의 R 패키지, rhdfs, rmr, and rhbase를 개발했다. Chapter3 : Integrating R and Hadoop
Installing RHadoop We need several R packages to be installed that help it to connect R with Hadoop. rJava, RJSONIO, itertools, digest, Rcpp, httr, functional, devtools, plyr, reshape2 Setting environment variables 우리는 하둡과 R을 연결하는 데 도움이 설치 될 여러 R 패키지가 필요합니다. 패키지 목록들. Chapter3 : Integrating R and Hadoop
Installing RHadoop Installing RHadoop [rhdfs, rmr, rhbase] HBase를 설치하기 위해, Hbase와 Zookeeper가 우리의 하둡 클러스터에 설치되어 있어야합니다. Chapter3 : Integrating R and Hadoop
Word count Defining the MapReduce job Map phase Executing the MapReduce job Reduce phase Exploring the wordcount output 이 맵 기능은 라인으로 텍스트 파일의 라인을 읽고 공백으로 분리. 이 맵 단계는 매퍼에 의해 적발되는 모든 단어의 값으로 1을 할당합니다. 리듀스 단계에서는 같은 키의 단어를 합하여 모든 단어의 총 빈도를 계산합니다 워드 카운트 매퍼와 리듀스를 정의한 후, 우리는 맵리 듀스의 실행을 시작하는 드라이버 방법을 만들어야합니다. 우리는 워드카운트 함수에 대한 매개 변수로 입력 데이터의 위치를 전달하여 하둡 맵리 듀스 작업을 실행합니다. Chapter3 : Integrating R and Hadoop
Understanding the RHadoop function reference The hdfs package Initialization hdfs.init() hdfs.defaults() File manipulation hdfs.put('/usr/local/hadoop/README.txt','/RHadoop/1/') hdfs.copy('/RHadoop/1/','/RHadoop/2/') hdfs.move('/RHadoop/1/README.txt','/RHadoop/2/') hdfs.rename('/RHadoop/README.txt','/RHadoop/README1.txt') hdfs.delete("/RHadoop") hdfs.rm("/RHadoop") hdfs.chmod('/RHadoop', permissions= '777') Chapter3 : Integrating R and Hadoop
Understanding the RHadoop function reference The hdfs package File read/write f = hdfs.file("/RHadoop/2/README.txt","r",buffersize=104857600) hdfs.write(object,con,hsync=FALSE) hdfs.close(f) m = hdfs.read(f) Directory operation hdfs.mkdir("/RHadoop/2/") hdfs.rm("/RHadoop/2/") Utility Hdfs.ls('/') hdfs.file.info("/RHadoop") Chapter3 : Integrating R and Hadoop
Understanding the RHadoop function reference The rmr package For storing and retrieving data small.ints = to.dfs(1:10) from.dfs('/tmp/RtmpRMIXzb/file2bda3fa07850') For MapReduce mapreduce(input, output, map, reduce, combine, input.fromat, output.format, verbose) keyval(key, val) 데이터를 저장하고 검색하기위한 Chapter3 : Integrating R and Hadoop
Thank you Chapter3 : Integrating R and Hadoop