IT기술/BigData 15

R 기초 입문

R 은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 Freeware Software 입니다.아주 훌륭한 성능을 가지고 있으면서도 Freeware 라는 것이 놀라울 정도인 멋진 Software 이지요. 이렇게 좋은 프로그램의 뿌리는 벨 연구소에서 만들어진 통계 분석 언어 S입니다. R 은 S언어를 근간으로 뉴질랜드의 University of Auckland에서 RossIhaka 와 Robert Gentleman 로 부터 시작되었습니다. R 은 현재 데이터 분석 을 위한 도구로 많은 인기를 누리고 있습니다.한 가지 사례로 kdnugget 에서 실시한‘ 지난 12개월 간 실제로 사용한 분석, 데이터 마이닝, 빅데이터 소프트웨어’에 대한 설문 조사가 있습니다.그 조사 내용에 따르면 R 은 2012년 기준으로..

IT기술/BigData 2014.02.13

03 하둡 분산 파일 시스템

3.1 HDFS 기초DAS (Direct-attached storage): 서버에 직접 연결된 스토리지이며, 외장형 하드디스크로 이해하며 됩니다. 여러 개의 하드디스크를 장착할 수 있는 있는 외장 케이스를 이용하는 방식NAS (Network-attached storage): 일종의 파일서버입니다. 별도의 운영체제를 사용하며, 파일시스템을 안정적으로 공유할 수 있습니다.주로 첨부파일이나 이미지 같은 데이터를 저장하는데 많이 사용합니다.SAN (storage area network): 수십에서 수백대의 SAN 스토리지를 데이터 서버에 연결해 총괄적으로 관리해주는 네트워크를 의미합니다.DAS 의 단점을 극복하기 위해 개발됐으며, 현재 SAN 기법이 시장의 절반 이상을 차지합니다.DBMS 와 같이 안정적이고 빠..

IT기술/BigData 2014.02.12

01 하둡 소개

1.1 빅데이터의 시대1.1.1 빅데이터의 개념- 데이터의 규모에 초점을 맞춘 정의기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터 - 업무 수행 방식에 초점을 맞춘 정의다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터의 3대 요소 (3V)Volume, Velocity, Variety 1.1.2 빅데이터의 출현 배경1.2 하둡이란?하둡은 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 1.2.1. 왜 하둡인가?기존 RDBMS 는 데이터가 저장된 서버에서 데이터를 처리하는 방식이지만,하둡은 여러 대의 서버에 데이터를 저장하고, 데이터가 ..

IT기술/BigData 2014.02.12

00 RHEL 5 에 Hadoop 환경 구축하기

아래 매뉴얼은 RHEL 5 버전이 설치된 4 개의 노드를 사용하여 Hadoop 운영 환경을 구축하는 매뉴얼입니다. 먼저 4개의 서버에 RHEL 5 를 설치하면 됩니다.참고로 이 매뉴얼에서는 아래와 같은 내용으로 설치했습니다.* CPU - Intel i7 2.9 GHZ (4 core)* RAM - 200 MB (1 노드당)*HDD - 10GB (1 노드당) ( 리눅스 설치시 파티션 내역은 아래와 같습니다/ --------- 전부swap ---- 512 MB * ip : Vmware 에서 NAT 로 설치 -> IP 확인하여 고정 설정하였습니다./etc/hosts 파일에 아래와 같이 설정하고 neat 로 eth0 에 각 IP 를 직접 지정했습니다. 192.168.239.141 hadoop1192.168.239..

IT기술/BigData 2014.02.11