IT기술 289

R 기초 입문

R 은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 Freeware Software 입니다.아주 훌륭한 성능을 가지고 있으면서도 Freeware 라는 것이 놀라울 정도인 멋진 Software 이지요. 이렇게 좋은 프로그램의 뿌리는 벨 연구소에서 만들어진 통계 분석 언어 S입니다. R 은 S언어를 근간으로 뉴질랜드의 University of Auckland에서 RossIhaka 와 Robert Gentleman 로 부터 시작되었습니다. R 은 현재 데이터 분석 을 위한 도구로 많은 인기를 누리고 있습니다.한 가지 사례로 kdnugget 에서 실시한‘ 지난 12개월 간 실제로 사용한 분석, 데이터 마이닝, 빅데이터 소프트웨어’에 대한 설문 조사가 있습니다.그 조사 내용에 따르면 R 은 2012년 기준으로..

IT기술/BigData 2014.02.13

03 하둡 분산 파일 시스템

3.1 HDFS 기초DAS (Direct-attached storage): 서버에 직접 연결된 스토리지이며, 외장형 하드디스크로 이해하며 됩니다. 여러 개의 하드디스크를 장착할 수 있는 있는 외장 케이스를 이용하는 방식NAS (Network-attached storage): 일종의 파일서버입니다. 별도의 운영체제를 사용하며, 파일시스템을 안정적으로 공유할 수 있습니다.주로 첨부파일이나 이미지 같은 데이터를 저장하는데 많이 사용합니다.SAN (storage area network): 수십에서 수백대의 SAN 스토리지를 데이터 서버에 연결해 총괄적으로 관리해주는 네트워크를 의미합니다.DAS 의 단점을 극복하기 위해 개발됐으며, 현재 SAN 기법이 시장의 절반 이상을 차지합니다.DBMS 와 같이 안정적이고 빠..

IT기술/BigData 2014.02.12

01 하둡 소개

1.1 빅데이터의 시대1.1.1 빅데이터의 개념- 데이터의 규모에 초점을 맞춘 정의기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터 - 업무 수행 방식에 초점을 맞춘 정의다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터의 3대 요소 (3V)Volume, Velocity, Variety 1.1.2 빅데이터의 출현 배경1.2 하둡이란?하둡은 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 1.2.1. 왜 하둡인가?기존 RDBMS 는 데이터가 저장된 서버에서 데이터를 처리하는 방식이지만,하둡은 여러 대의 서버에 데이터를 저장하고, 데이터가 ..

IT기술/BigData 2014.02.12

00 RHEL 5 에 Hadoop 환경 구축하기

아래 매뉴얼은 RHEL 5 버전이 설치된 4 개의 노드를 사용하여 Hadoop 운영 환경을 구축하는 매뉴얼입니다. 먼저 4개의 서버에 RHEL 5 를 설치하면 됩니다.참고로 이 매뉴얼에서는 아래와 같은 내용으로 설치했습니다.* CPU - Intel i7 2.9 GHZ (4 core)* RAM - 200 MB (1 노드당)*HDD - 10GB (1 노드당) ( 리눅스 설치시 파티션 내역은 아래와 같습니다/ --------- 전부swap ---- 512 MB * ip : Vmware 에서 NAT 로 설치 -> IP 확인하여 고정 설정하였습니다./etc/hosts 파일에 아래와 같이 설정하고 neat 로 eth0 에 각 IP 를 직접 지정했습니다. 192.168.239.141 hadoop1192.168.239..

IT기술/BigData 2014.02.11

07 데이터베이스 구축 준비

1. 논리 모델인 ERD 를 테이블 관계도 (Table Relationship Diagram) 로 전환한다.2. 테이블 관계 이외의 데이터베이스와 관련된 기타사항을 설계한다.3. 분산 데이터베이스를 설계한다. 1. 관계형 테이블로 전환논리적인 데이터 모델링을 통해 산출한 ERD 를 관계형 데이터베이스로 구축할 수 있도록 테이블 관계도로 전환하는 작업을 진행한다. 관계형 테이블로 변환해야 하는 항목은- 엔티티타입은 테이블로 전환한다.- 주식별자는 PK 로 변환한다.- 속성은 컬럼으로 변환한다.- 관계에 의한 외부 식별자는 FK 로 변환한다. 엔티티타입을 테이블로 전환한다.(1) 독립 엔티티타입은 독립 테이블로 전환된다.(2) 완전 종속 엔티티타입은 완전 종속 테이블로 전환된다.(3) 부분 종속 엔티티타입은..

06 모델 검토

실제 프로젝트에서 데이터 모델 검토 단계는 세 개의 조직에서 이루어진다.(1) 모델링을 수행한 모델러(2) 시스템 통합팀이나 품질 보증팀(3) 외부 감리 인원 초청 ERD 는 분석 단계 활동의 가장 중요한 결과물로서 업무적 측면, 모델 규약 측면의 두 가지 측면에서 검토가 이루어진다. 1. 엔티티타입 검토엔티티타입을 검토하는 대표적인 질문 내용은 다음과 같다. 선정된 PK가 업무적으로 발생하는 자료의 유일성을 보장하는가?- 주요 오류 유형사례1) 자료의 유일성을 보장할 수 없는 항목에 의한 PK 선정2) 일반적으로 필요 이상의 항목을 PK 로 선정하는 경우 선정된 PK는 효율적인 모습인가?엔티티타입 내에서 PK 를 정하는 기준은 다음과 같다.1) 선정된 속성은 해당 업무에 대해서 대표성을 가지는가?2) ..

05 상관 모델링

상관 모델링이란 정보화 시스템을 구축하기 위해 그 업무에 존재하는 무엇 (데이터) 에 대해 무슨 일이 행해지고 (프로세스) 있는지또는 무슨 일 (프로세스) 에 의해 무엇 (데이터) 이 영향을 받는지 분석하는 방법이다. 1. CRUD MATRIX 상관 모델링단위 프로세스가 엔티티타입에 영향을 주는 방법으로는 신규, 조회, 수정, 삭제의 네가지에 반드시 포함되어 있다.CRUD 는 CREATE 의 "C", READ 의 "R", UPDATE 의 "U", DELETE 의 "D" 를 의미한다. 점검해야할 사항- 모든 엔티티타입에 CRUD 가 한 번 이상 표기되었는가?- 모든 엔티티타입에 "C" 가 한 번 이상 존재하는가?- 모든 엔티티타입에 "R" 이 한 번 이상 존재하는가?- 모든 단위 프로세스는 하나 이상의 엔..

04 프로세스 모델링

프로세스 모델링이란정보시스템을 구축하기 위해 해당 업무에 어떤 프로세스가 존재하는지 또는 업무처리에 필요한 프로세스는 무엇인지 분석하는 방법다시말해 업무에 필요한 프로세스를 시스템 구축 방법론을 사용하여 분석하고 설계하여 정보화시스템을 구축하는 것이다. 1. 업무 기능 분해업무 기능분해의 목적첫째, 정보화 시스템을 구축하는 가장 최저 단위의 단위 프로세스를 도출하기 위함둘째, 전체 업무의 체계를 프로세스를 중심으로 도식화하여 업무에 대한 기능을 파악하는 것 업무 기능 분해의 개념업무기능이란 기업의 임무를 한층 더 멀리 조명하여 하나로 표현하는 완벽한 단위 업무 그룹이다.정보 전략 계획을 수립하는 사람은 최상위 업무 기능을 업무에 집중할 수 있도록 작게 그리고 낮은 수준의 업무 기능으로 분리한다. 업무 프..

03 실전 데이터 모델링 이슈

1. M:N 관계 해소 방법기본적인 M:N 관계 해소 방법 - 관계 엔티티타입 분리PK 에 의한 M:N 관계의 해소 방법 - 주식별자 통합속성에 의한 M:N 관계의 해소 방법 - 부모 엔티티타입에 속성 추가 꼭 기억해야할 것은 관계 엔티티타입이 발견되는 시점에는 반드시 먼저 엔티티타입간 관계를 검증하여관계 엔티티타입을 도출하도록 해야 한다는 것이다. 2. 1:1 관계 해소 방법별개의 엔티티타입으로 따로 표현하는 방법하나의 엔티티타입으로 완전히 통합하는 방법부분 통합을 하는 방법슈퍼 엔티티타입 생성 3. 엔티타타입의 통합엔티티타입을 통합하는 목적1) 정보를 조회하는 작업이 용이해진다.2) 엔티티타입간 중복성이 제거된다.3) 동일한 규칙에 따라 하나의 엔티티타입으로만 표현이 가능하다.4) ERD 의 표현이 ..

02 데이터 분석 및 모델링

잘 정의된 분석 단계의 데이터 모델에는 다음과 같은 특징이 있다.- 해당 업무의 현재 모습뿐만 아니라 계획, 정책, 전략을 포함- 명명법, 도메인 등 정의된 규칙에 따른 일관성 있는 모델- 실무 업무 전문가가 참여하여 실무에 대한 내용이 충분히 포함된 내용- 물리 설계로의 전환이 효율적으로 이루어질 수 있는 모델- 각각의 엔티티타입, 속성, 관계 등에 대한 기본 업무 배경의 객관적 증거 존재- 업무 병행이나 확장이 발생할 때 수용 가능한 모델 1. 엔티티타입정의↑ 데이터모델 검증 엔티티타입 검증, 관계 검증, 속성 검증, 도메인 검증↑ 통합화 엔티티타입 통합↑ 세부 사항 정의 속성 상세 정의, 정규화, 도메인 정의, 속성 규칙 정의↑ 식별자 정의 주식별자 정의, 보조 식별자 정의, 식별자 업무 규칙 정의..