R-Studio 입문

갑자기 뭔가 분석을 하고 싶었다. 하나의 큰 용량이 아닌 작고 많은 데이터를 분석을 하고자 했다. 이에 가장 적합한 도구는 무엇일까?

빅데이터 트랜드를 대표하는 하둡(Hadoop)의 대용량 분산 파일 시스템(Distributed File System)과 맵리듀스(Map Reduce)는 하나의 큰 용량을 처리하는 데 적합한 플랫폼이다. 왜냐하면 하둡의 분산 파일 시스템은 읽기에 적합하며 추가하여 쓰기 작업을 하기에 매우 비효율 적이다.

맵리듀스를 간단히 설명하면 맵(Map)은 매핑하는 작업, 즉 키 값이 되고, 리듀스(Reduce)는 처리 작업, 즉 키의 값(Value) 이 되겠다. 빅데이터에 접근하기에 앞서 잘 정제된 데이터가 필요하다. 하둡은 정제된 데이터를 만들기에 적합하다. 물론 맵리듀스(Map Reduce)를 지원하나 자바로 작성하여 컴파일 되어야 하기 때문에 오로지 데이터를 분석하기에는 준비 작업에 더 오랜 시간이 걸린다.

최근에는 파이썬(Python)의 공개된 모듈 중 통계 분석-선형 회귀 그리고 신경망 알고리즘을 구현한 라이브러리가 있다.

그 외에 매우 방대한 라이브러리가 있으나 분명 프로그래밍 작업과 오로지 분석 작업은 다르다. 분석에만 집중할 수 있는 전용 언어가 필요하다.

 R / R-Studio

정제된 데이터가 있다면 이를 분석하기 위한 최적의 언어가 R 언어라고 생각한다.

여기에서는 간단히 작업 환경을 구성할 수 있는 링크를 남기도록 한다.


다음과 같은 오류 메시지를 보게 된다면 R 언어를 먼저 설치하기 바란다.



참고:대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL / 길벗


저작자 표시 비영리 동일 조건 변경 허락
신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'BigData' 카테고리의 다른 글

[빅데이터] R / R-Studio 작업 환경 구성  (0) 2013.09.10
Posted by 땡초 POWERUMC

댓글을 달아 주세요