IT기술/Data Modeling

01 데이터 모델링 주요 개념

dobbby 2014. 2. 4. 11:18
반응형

데이터 모델링

정보화 시스템을 구축하기 위해 어떤 데이터가 존재하는지 또는 업무에 필요한 정보는 무엇인지 분석하는 방법


모델링의 3가지 주요 요소

* 데이터 관점 - 업무가 어떤 데이터와 관련이 있는지, 데이터간의 관계는 무엇인지에 대해서 모델링하는 방법 (What, Data)

* 프로세스 관점 - 업무를 통해 어떤 일을 처리하는지, 무엇을 해야하는지를 모델링하는 방법 (How, Process)

* 데이터와 프로세스 상관 관점 - 업무에서 일을 처리하는 방법에 따라 데이터가 어떻게 영향을 받는지 모델링하는 방법 (Interaction)


정보공학 모델링의 경우 데이터와 프로세스를 분리하여 모델링하는데 비해

객체지향 모델링에서는 데이터와 프로세스를 동시에 모델링한다.


데이터 모델링을 하는 주요한 이유

업무 정보를 구성하는데 기초가 되는 정보를 일정한 표현기법으로 표현함으로써 정보시스템 구축 대상이 되는 업무 내용을 정확하게 분석하는 것이고

분석된 모델을 가지고 실제 데이터베이스를 생성하여 개발 및 데이터 관리에 사용하기 위한 것이다.


누가 데이터 모델링에 대해 연구하고 학습해야 하는가?

- 정보화 시스템을 구축해야 하는 모든 사람

- IT기술에 종사하거나 비록 IT 기술을 활용하여 직접적으로 시스템을 구축하지는 않지만 기업이나 공공기관에서 업무 정보화를 추진하는 사람


모델링을 진행할 때 중요한 3가지 개념

- 업무가 관여하는 어떤 것 (Things)

- 업무가 관여하는 어떤 것과의 관계 (Relationships)

- 어떤 것의 성격 (Attributes)


1. 엔티티 타입

엔티티타입이란 업무에 필요하고 유용한 정보를 저장하고 관리하기 위한 것으로 영속적으로 존재하는 단위

엔티티타입은 엔티티의 집합

엔티티는 엔티티타입에 속한 인스턴스 하나


엔티티 타입의 특징

1) 반드시 시스템을 구축하고자 하는 업무에서 필요하고 관리하고자 하는 정보여야 한다.

2) 유일한 식별자 (Unique Identifier) 에 의해 식별이 가능해야 한다.

3) 영속적으로 존재하는 엔티티의 집합이 되어야 한다. 한 개가 아니라 두 개 이상 이다.

4) 업무 프로세스 (Business Process) 는 그 엔티티타입을 반드시 이용해야 한다.

5) 엔티티타입에는 반드시 속성 (Attributes) 이 포함되어야 한다.

6) 엔티티타입은 다른 엔티티타입과 최소 한 개 이상의 관계가 있어야 한다.


엔티티타입의 분류

* 유무형에 따른 분류

- 유형 (Tangible) 엔티티 타입

- 개념 (Conceptual) 엔티티 타입

- 사건 (Event) 엔티티 타입


* 발생 시점에 따른 분류

- 기본 엔티티 타입 (Fundamental Entity Type)

- 중심 엔티티 타입 (Main Entity Type)

- 행위 엔티티 타입 (Active Entity Type)


엔티티타입의 명명

- 가능하면 현업에서 사용하는 용어를 사용한다.

- 가능하면 약어사용하지 않는다.

- 단수 명사를 사용한다.

- 엔티티타입에 부여되는 이름은 유일해야 한다.

- 가급적 엔티티타입이 생성되는 의미에 따라 이름을 부여한다.




2. 속성

속성의 개념

속성이란 업무에 필요한 엔티티에서 관리하고자 하는, 더이상 분리되지 않는 최소의 데이터 단위다.


엔티티타입, 엔티티, 속성, 속성값에 대한 관계를 분석하면 다음과 같은 결과를 얻을 수 있다.

- 규칙1. 한개의 엔티티타입은 두 개이상의 엔티티 집합이어야한다.

- 규칙2. 한개의 엔티티는 두 개 이상의 속성을 갖는다.

- 규칙3. 한 개의 속성은 한개의 속성값을 갖는다.


속성은 엔티티타입에 속한 엔티티에 대한 자세하고 구체적인 정보를 나타내며 각각의 속성은 구체적인 값을 갖는다.


사원 - 엔티티타입

홍길동 - 엔티티

이름은 홍길동, 주소는 서울시, 생일은 12월31일

이름, 주소, 생일 - 속성

홍길동, 서울시, 12월 31일 - 속성값


속성의 분류

- 속성의 특성에 따른 분류

업무분석을 통해 바로 정의한 속성을 기본 속성 (Basic Attribute)

원래업무에는 존재하지 않지만 설계를 하면서 도출하는 속성을 설계 속성 (Designed Attribute)

다른 속성으로부터 계산이나 변형되어 생성되는 속성을 파생 속성 (Derived Attribute) 가급적 파생속성은 적게 정의한다.


- 엔티티 구성방식에 따른 분류

엔티티를 식별할 수 있는 속성을 PK (Primary Key) 속성

다른 엔티티와의 관계에서 포함된 속성을 FK (Foreign Key) 속성

엔티티에 포함되어 있고 PK, FK 에 포함되지 않은 속성을 일반 속성


속성의 명명

속성 이름을 정확하게 부여하고 용어의 혼란을 없애기 위해 용어사전이라는 업무사전을 실제 프로젝트에서 사용하기도 한다.

속성명을 부여하는 원칙은 다음과 같다.

1. 해당업무에서 사용하는 이름을 부여한다.

2. 서술식 속성명은 사용하지 않는다.

3. 약어 사용은 가급적 자제한다.

4. 엔티티타입에서 유일하게 식별가능 하도록 지정한다.




3. 식별자

식별자 개념

식별자 (Identifier) 란 여러 개의 집합체를 담고 있는 하나의 엔티티타입에서 각각의 엔티티를 구분할 수 있는 결정자다.

모든 엔티티 타입에는 반드시 하나 이상의 식별자가 있어야 한다.


식별자 특징

1) 식별자에 의해 엔티티타입 내 모든 엔티티들이 유일하게 구분되어야하고, 

2) 일단 특정 엔티티타입에 식별자가 지정되면 변하지 않아야 한다.

3) 주식별자의 경우 식별자가 지정되면 주식별자 속성에 반드시 데이터값이 있어야 한다.


식별자 구분

- 주식별자/보조 식별자 (대표성 여부)

주식별자는 엔티티타입의 대표성을 나타내는 유일한 식별자고,

보조 식별자는 주식별자를 대신하여 보조적으로 엔티티를 식별할 수 있게 한다.


- 내부 식별자/외부 식별자 (스스로 생성 여부)

내부 식별자는 사원 엔티티타입의 사원번호, 주문 엔티티타입의 주문번호와 같이

타 엔티티타입으로부터 식별자를 가져오지 않고,

자신의 엔티티타입 내에서 스스로 생성되어 존재하는 식별자를 말한다.

외부 식별자는 다른 엔티티타입으로부터 관계에 의해 주식별자 속성을 상속받아

자신의 속성에 포함되는 식별자로서 자신의 외부 식별자가 주식별자 영역에 포함될 수 도 일반 속성에 포함될 수도 있다.


- 단일 식별자/복합 식별자 (단일 속성 여부)

주식별자의 구성이 한가지 속성으로만 이루어진 경우를 단일 식별자라고 하고,

두개이상의 속성으로 구성된 경우를 복합 식별자라고 한다.


- 원조 식별자/대리 식별자 (대체 여부)

주식별자의 속성이 복합식별자일 경우 여러 개의 속성을 묶어 하나의 속성으로 만들어 주식별자로 활용하는 경우가 있는데

대리 식별자라고 한다.




4. 관계

관계의 개념

관계란 두 개의 엔티티타입 사이의 논리적인 관계, 즉 엔티티와 엔티티가 존재의 형태나 행위로서 서로에게 영향을 주는 것을 말한다.

데이터 모델에서의 관계란 업무의 흐름을 나타낸다.


관계 패어링

각각의 엔티티들은 자신이 관련된 엔티티들과 관계의 어커런스로 참여하는 형태를 관계 패어링 (Relationship Pairing) 이라 한다.


관계의 명명

각각의 관계에는 두 개의 멤버십이 있다. 또한 각각의 멤버십에 의해 두 가지 관점으로 표현될 수 있다. 멤버십엔티티타입이 관계에 참여하는 것을 말한다.

멤버십의 성격에 따라 관계 이름을 능동적 (Active) 이거나 수동적 (Passive) 으로 명명된다.

관계 이름은 다음과 같은 명명 규칙에 따라 작성한다.

- 애매한 동사를 피하라

- 현재형으로 표현하라


관계의 카디널리티

두 개의 엔티티타입간 관계에서 참여자의 수를 표현하는 것을 카디널리티 (Cardinality) 라고 한다.

가장 일반적인 표현방법은 1:M, 1:1, M:N 이다.


관계를 읽는 방법

먼저 읽는 엔티티타입의 참여도를 읽고 그 다음 엔티티타입을 읽고 관계명을 읽는다.


관계에 참여하는 방법

참여하는 엔티티가 항상 참여하는지 아니면 참여할 수 도 있는지에 따라 방법이

필수 참여 (Mandatory Membership) 와 선택 참여 (Optional Membership) 로 나뉜다.



엔티티타입 분석 예

관계를 읽는 방법으로 프로젝트에 참여한 고객에게 질문 목록을 만들어 질문하는 방법도 업무 분석을 위해 효과적인 방법이다.

주문과 제품 관계를 질문한다면

"한 주문에 대해서 하나의 제품만 주문합니까?" 

"한 제품은 하나의 주문에 대해서만 주문을 접수받을 수 있습니까?" 

라고 질문할 수 있다.

이러한 질문 방법은 엔티티 타입간 관계 설정뿐 아니라 업무의 흐름까지 분석되는 효과적인 방법이 된다.


관계의 종류

- 정상관계 (Normal Relationship)

엔티티타입과 엔티티타입이 독립적으로 분리되어 있으면서 상호간에 한 가지 관계 성립하는 형태다.


- 자기 참조 관계 (Self Relationship, Recursive Relationship)

하나의 엔티티타입 내에서 엔티티와 엔티티가 관계를 맺고 있는 형태다. 

부서, 부품, 메뉴 등과 같이 계층 구조 형태를 표현할 때 유용하다.


- 병렬 관계 (Parallel Relationship)

엔티티타입과 엔티티타입이 독립적으로 분리되어 있으면서 두 개 이상의 관계가 상호간에 존재하는 형태의 관계다.


- 슈퍼타입 서브타입 관계 (Super-Type Sub-Type Relationship)

공통속성을 가지는 슈퍼타입과 공통 부분을 제외하고, 두 개 이상의 엔티티타입간의 속성에 차이가 있을 때 별도의 서브타입으로 존재할 수 있다.

이 때 슈퍼타입과 서브타입의 관계 형식은 1:1 이다.


- 주식별자/비식별자 관계 (Identifying/Non-Identifying Relationship)

부모 엔티티타입의 주식별자가 자식 엔티티타입의 주식별자로 상속되는 주식별자 관계와 

부모 엔티티타입의 주식별자가 자식 엔티티타입의 일반 속성으로 상속되는 비식별자 관계로 구분할 수 있다.




5. 엔티티 슈퍼타입과 서브타입

엔티티 슈퍼타입과 서브타입의 개념

여러 개의 엔티티타입이 비슷하고 일부의 속성이나 관계만 다를 경우 여러 개의 엔티티타입을 한 개의 엔티티타입으로 묶어 통합하고,

하나의 엔티티타입 안에 다른 엔티티타입의 모습을 서브 타입으로 나누어 표시하는 경우가 있다.

이를 엔티티타입이 통합되었다라고 한다.

통합하여 표시하는 엔티티타입을 슈퍼타입이라 하고, 슈퍼타입 안에 포함되어 표시된 비슷한 성격의 엔티티타입을 서브타입이라 한다.


엔티티타입과 서브타입의 표시방법

슈퍼타입을 표시하는 방법은 서브타입을 감싸는 모양으로 표시할 수도 있고, 앞의 그림처럼 반타원형 모양으로 표시할 수도 있는데

의미는 같다고 할 수 있다. 한가지 주의해야할 점은 슈퍼타입과 서브타입으로 나뉘는 구분이 반드시 존재해야 한다는 것이다.


엔티티 슈퍼타입과 서브타입을 표시하기 위한 특징




6. 서브젝트 에어리어

정의

서브젝트 에어리어란 해당 업무 내에서 연관이 많은 엔티티타입을 그룹으로 묶어 표시하는 개념이다.


서브젝트 에어리어 구분

보통 시스템을 분석하기 이전부터 업무별로 영역을 지정하는 경우도 많다.

업무 구분에 따라 모델의 서브젝트 에어리어가 나뉘는데, 잘못 지정된 업무 구분은 모델에도 치명적인 결함을 준다.


서브젝트 에어리어 명명법

서브젝트 에어리어의 이름은 엔티티타입이나 속성과 마찬가지로 업무에서 가장 많이 사용되는 용어를 쓰는 것이 가장 좋은 방법이다.




7. 정규화

1차 → 2차 → 3차 → BCNF → 4차 → 5차

정규화 (Nomalization) 란 다양한 유형의 검사를 통해 데이터 모델을 좀더 구조화하고 개선시켜 나가는 절차에 관련한 이론이다.

정규화의 기본 원칙은 하나의 테이블에는 중복된 데이터가 없도록 하는 것이다.


정규화의 특징

- 정규화는 적절한 엔티티타입에 각각의 속성들을 배치하고 엔티티타입을 충분히 도출해가는 단계적인 분석 방법이다.

- 정규화 기술은 엔티티타입에 속성들이 상호 종속적인 관계를 갖는 것을 배경으로 종속 관계를 이용하여 엔티티타입을 정제하는 방법이다.

- 각각의 속성들이 데이터 모델에 포함될 수 있는 정규화의 원리를 이용하여 데이터를 분석하는 방법에서 활용될 수 있다.

- 정규화는 현재 데이터를 검증할 수 있고 데이터의 표현 관점에서 엔티티타입을 정의하는 데 이용할 수 있다.

- 정규화는 엔티티타입을 오브젝트별로 분석하는 방법이 아닌 개별 데이터를 이용한 수학적인 접근 방법을 통해 분석한다.


오브젝트 분석과 정규화 작업에 의한 엔티티타입 도출 방법 비교

일반적으로 업무에서 엔티티타입을 분석하는 방법은 실세계에서 발생하는 현상을 오브젝트 유형별로 정리한 이후 

오브젝트간 종속 관계를 활용하여 엔티티타입을 도출하고 정제해 나간다.

즉 각각의 오브젝트를 엔티티타입의 주 대상으로 하여 이를 구조화시키는 작업을 하는 것이다.


정규화를 통해 엔티티타입을 도출할 때는 실세계에서 발생하는 데이터들을 정리하여 

중복된 속성을 제거하고 종속 관계를 활용하여 주식별자에 의한 속성을 배치할 뿐만 아니라

속성간에도 종속적인 관계를 분리하는 것을 이용하여 엔티티타입을 분리한다.


두 가지 방법 모두 공통적으로 적용되는 사항은 각각의 속성들이 어느 오브젝트에 어느 식별자에 종속적인지를 알아야 한다는 전제가 있다.

이를 함수의 종속성이라고 한다.


정규화 규칙은 실제 프로젝트에서 두 가지 성격으로 중요하게 반영된다.

1. 엔티티타입을 오브젝트 분석 방법에 의해 도출할지라도 분석 방법의 배경에는 이미 중복 제거 및 주식별자에 의한 종속과 속성에 의한 종속 등

제 3 정규화 규칙이 모델링 작업의 기초에 관여한다고 봐도 된다.

2. 정규화 방법을 프로젝트에서 적절하게 활용하기 위해 오브젝트별로 엔티티타입을 분석해 가면서 각각의 오브젝트가 적절하게 도출되었는지 

또는 더 분리되어야 하는지를 정규화 규칙에 대입하며 검증하는 것이다.


함수의 종속성

함수의 종속성 (Functional Dependency) 이란 말은 데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭하는 말이다.

이 때 기준값을 결정자 (Determinant) 라 하고, 

종속되는 값을 종속자 (Dependent) 라고 한다.


만약 어떤 사람의 주민등록번호가 신고되면 그 사람의 이름, 출생지, 주소가 생성되어 유일한 값을 갖는다.

이름, 출생지, 주소라는 속성은 주민등록번호 속성에 종속된다.

주민등록번호 -> (이름, 출생지, 주소)


함수의 종속성은 데이터의 근본 속성이다. 정규화를 하는 궁극적인 목적반복적인 데이터를 분리하고,

각 데이터를 종속 테이블에 적절하게 (프로세스에 의해 데이터의 정합성이 지켜질 수 있어야 함) 배치하는 것이므로,

정규화 작업이나 각 오브젝트에 속성을 배치하는 작업에 이 함수의 종속성을 이용한다.


정규화

1차 정규화                복수의 속성값을 갖는 속성을 분리

2차 정규화                주식별자에 종속적이지 않은 속성의 분리

부분 종속 (Partial Dependency) 속성을 분리

3차 정규화                속성에 종속적인 속성의 분리

이전 종속 (Transitive Dependency) 속성의 분리

보이스-코드 정규화    다수의 주식별자 분리

4차 정규화                다가 종속 (Multi-Valued Dependency) 속성 분리

5차 정규화                결합 종속 (Join Dependency) 일 경우는 두 개 이상의 N개로 분리




8. ERD 표기법

ERD 는 각각 업무 분석에서 도출된 엔티티타입과 엔티티타입간의 관계를 이해하기 쉽게 그림으로 표시하는 방법이다.

UML 표준 표기법을 사용하는 오브젝트 모델링에서는 궁극적으로 해당 업무에 가장 적절한 클래스 다이어그램을 그려내는 것이 목적이라면

정보공학을 기반으로 하는 모델링에서는 해당 업무에 가장 적절한 ERD 를 그려내는 것이 프로젝트의 지상 과제이다.


ERD 를 작성하는 순서

1. 엔티티타입을 그린다.

2. 엔티티타입을 적절하게 배치한다.

3. 엔티티타입간 관계를 설정한다.

4. 관계명을 기술한다.

5. 관계의 참여도를 기술한다.

6. 관계의 필수 여부를 기술한다.


ERD 에서 엔티티타입의 배치방법

1. 업무를 진행하는 순서에 따라 엔티티타입을 왼쪽부터 오른쪽으로 그리고 위에서 아래로 표시한다.

2. 업무 흐름에 중심이 되는 엔티티타입, 보통 업무 흐름에 있어 중심이 되는 엔티티타입은 타 엔티티타입과 많은 관계가 있으므로 중앙에 배치한다.

3. 업무를 진행하는 중심 엔티티타입과의 관계를 가진 엔티티타입들은 중심에 배치된 엔티티타입을 주위에 배치하도록 한다.


ERD 관계의 연결

엔티티타입에 배치되면 관계를 정의한 분석서를 보고 서로 관련있는 엔티티타입간의 관계를 설정한다.


ERD 관계명의 표시

관계 설정이 완료되면 연결된 관계에 관계명을 부여한다. 대부분의 관계는 엔티티타입의 성질과 주식별자를 보고 유추가 가능하다.


ERD 관계 카디낼리티와 선택성 표시

관계명을 모두 지정하였으면 관계가 참여하는 성격 중 엔티티타입간에 엔티티들이 얼마나 관계에 참여하는지를 나타내는 카디낼리티를 표현한다.




반응형