Million Dreams
100만개의 꿈을 꾸는 개발자 지망생
정보처리기사 3과목 데이터베이스 구축 1장 논리 데이터베이스 설계 요점 정리

1장 논리 데이터베이스 설계

 

Section 70 데이터베이스 설계

 

1. 데이터베이스 설계의 개념

- 데이터베이스 설계란 사용자의 요구를 분석하여 그것들을 컴퓨터에 저장할 수 있는 데이터베이스의 구조에 맞게 변형한 후 특정 DBMS로 데이터베이스를 구현하여 일반 사용자들이 사용하게 하는 것이다.

2. 데이터베이스 설계 시 고려사항

- 무결성 : 삽입, 삭제, 갱신 등의 연산 후에도 데이터베이스에 저장된 데이터가 정해진 제약 조건을 항상 만족해야 한다.

- 일관성 : 데이터베이스에 저장된 데이터들 사이나, 특정 질의에 대한 응답이 처음부터 끝까지 변함없이 일정해야 한다.

- 회복 : 시스템에 장애가 발생했을 때 장애 발생 직전 상태로 복구할 수 있어야 한다.

- 보안 : 불법적인 데이터의 노출 또는 변경이나 손실로부터 보호할 수 있어야 한다.

- 효율성 : 응답시간의 단축, 시스템의 생산성, 저장 공간의 최적화 등이 가능해야 한다.

- 데이터베이스 확장 : 데이터베이스 운영에 영향을 주지 않으면서 지속적으로 데이터를 추가할 수 있어야 한다.

 

3. 데이터베이스 설계 순서

요구 조건 분석 => 개념적 설계 => 논리적 설계 => 물리적 설계 => 구현

 

4. 요구조건 분석

- 데이터베이스를 사용할 사람들로부터 필요한 용도를 파악하는 것.

- 데이터베이스 사용자에 따른 수행 업무와 필요한 데이터의 종류, 용도, 처리 형태, 흐름, 제약 조건 등을 수집한다.

- 수집된 정보를 바탕으로 요구 조건 명세를 작성한다.

 

5. 개념적 설계(정보 모델링, 개념화)

- 정보의 구조를 얻기 위하여 현실 세계의 무한성과 계속성을 이해하고, 다른 사람과 통신하기 위하여 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정이다.

- 개념적 설계 단계에서는 개념 스키마 모델링과 트랜잭션 모델링을 병행 수행한다.

- 개념적 설계 단계에서는 요구 분석 단계에서 나온 결과인 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성한다.

- DBMS에 독립적인 개념 스키마를 설계한다.

 

6. 논리적 설계(데이터 모델링)

- 현실 세계에서 발생하는 자료를 컴퓨터가 이해하고 처리할 수 있는 물리적 저장장치에 저장할 수 있도록 변환하기 위해 특정 DBMS가 지원하는 논리적 자료 구조로 변환시키는 과정이다.

- 개념 세계의 데이터를 필드로 기술된 데이터 타입과 이 데이터 타입들 간의 관계로 표현되는 논리적 구조의 데이터로 모델화한다.

- 개념적 설계가 개념 스키마를 설계하는 단계라면 논리적 설계에서는 개념 스키마를 평가 및 정제하고 DBMS에 따라 서로 다른 논리적 스키마를 설계하는 단계이다.

- 트랜잭션의 인터페이스를 설계한다.

- 관계형 데이터베이스라면 테이블을 설계하는 단계이다.

 

7. 물리적 설계(데이터 구조화)

- 논리적 설계 단계에서 논리적 구조로 표현된 데이터를 디스크 등의 물리적 저장장치에 저장할 수 있는 물리적 구조의 데이터로 변환하는 과정이다.

- 물리적 설계 단계에서는 다양한 데이터베이스 응용에 대해 처리 성능을 얻기 위해 데이터베이스 파일의 저장 구조 및 액세스 경로를 결정한다.

- 저장 레코드의 형식, 순서, 접근 경로와 같은 정보를 사용하여 데이터가 컴퓨터에 저장되는 방법을 묘사한다.

 

8. 데이터베이스 구현

- 논리적 설계 단계와 물리적 설계 단계에서 도출된 데이터베이스 스키마를 파일로 생성하는 과정이다.

- 사용하려는 특정 DBMS DDL(데이터 정의어)을 이용하여 데이터베이스 스키마를 기술한 후 컴파일하여 빈 데이터베이스 파일을 생성한다.

- 생성된 빈 데이터베이스 파일에 입력한다.

- 응용 프로그램을 위한 트랜잭션을 작성한다.

- 데이터베이스 접근을 위한 응용 프로그램을 작성한다.

Section 72 데이터 모델의 구성 요소  개체(Entity)

1. 개체의 정의 및 특징

- 개체(Entity)는 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보단위 같은 현실 세계의 대상체이다.

- 개체는 실세계에 독립적으로 존재하는 유형, 무형의 정보로서 서로 연관된 몇 개의 속성으로 구성된다.

- 파일 시스템의 레코드에 대응하는 것으로 어떤 정보를 제공하는 역할을 수행한다.

- 영속적(Persistence)으로 존재하는 개체의 집합이다.

- 독립적으로 존재하거나 그 자체로서도 구별이 가능하다.

- 유일한 식별자(Unique Identifier)에 의해 식별이 가능하다.

- 개체는 업무 프로세스에 의해 이용된다.

- 다른 개체와 하나 이상의 관계(Relationship)가 있다.

 

2. 개체 선정 방법

- 업무 분석에 관한 내용을 구체적으로 설명한 업무 기술서를 이용한다.

- 실제 업무를 담당하고 있는 담당자와 인터뷰를 한다.

- 업무 기술서와 인터뷰에서 확인하지 못한 정보가 있는지 실제 업무를 직접 견학하여 확인할 수 있다.

- 실제 업무에 사용되고 있는 장부와 전표를 이용한다.

- 이미 구축된 시스템이 있는 경우 해당 시스템의 산출물을 검토한다.

- 자료 흐름도(DFD)를 통해 업무 분석을 수행했을 경우 자료 흐름도의 자료 저장소를 이용한다.

- BPR(업무 프로세스 재설계)에 의해 업무를 재정의한 경우 관련 개체를 찾는다.

 

3. 개체명 지정 방법

- 일반적으로 해당 업무에 사용하는 용어로 지정한다.

- 약어 사용은 되도록 제한한다.

- 가능하면 단수 명사를 사용한다.

- 모든 개체명은 유일해야 한다.

- 가능하면 개체가 생성되는 의미에 따라 이름을 부여한다.

 

Section 76 E-R(개체-관계) 모델

1. E-R(Entity-Relationship, 개체-관계) 모델의 개요

- 개념적 데이터 모델의 가장 대표적인 것으로, 1976년 피터 첸에 의해 제안되고 기본적인 구성 요소가 정립되었다.

- E-R 모델은 개체와 개체 간의 관계를 기본 요소로 이용하여 현실 세계의 무질서한 데이터를 개념적인 논리 데이터로 표현하기 위한 방법으로 많이 사용되고 있다.

- E-R 모델은 개체 타입과 이들 간의 관계 타입을 이용해 현실 세계를 개념적으로 표현한다.

- E-R 모델에서는 데이터를 개체, 관계, 속성으로 묘사한다.

- E-R 모델은 특정 DBMS를 고려한 것은 아니다.

- E-R 다이어그램으로 표현하며, 1:1, 1:N, N:M 등의 관계 유형을 제한 없이 나타낼 수 있다.

- 최초에는 개체, 관계, 속성과 같은 개념들로 구성되었으나 나중에는 일반화 계층 같은 복잡한 개념들이 첨가되어 확장된 모델로 발전했다.

 

2. E-R 다이어그램

- E-R 다이어그램은 E-R모델의 기본 아이디어를 이해하기 쉽게 기호를 사용하여 시각적으로 표현한 그림이다.

- E-R 다이어그램은 실체 간의 관계는 물론 조직, 사용자, 프로그램, 데이터 등 시스템 내에서 역할을 가진 모든 실체들을 표현한다.

- E-R 다이어그램은 데이터에 대해 개발자, 관리자, 사용자들이 서로 다르게 인식하고 있는 뷰(Veiw)들을 하나로 단일화시킨다.

- E-R 다이어그램 표기법에는 피터 첸 표기법, 정보 공학 표기법, 바커 표기법 등이 있다.

 

3. 피터 첸 표기법

- 197년 피터 첸이 개발하였다.

- 사각형 : 개체(Entity) 타입

- 마름모 : 관계(Relationship) 타입

- 타원 : 속성(Attribute)

- 이중 타원 : 다중값 속성(복합 속성)

- 밑줄 타원 : 기본키 속성

- 복수 타원 : 복합 속성

- 관계 : 개체 간 관계에 대한 대응수를 선 위에 기술함

- 선 링크 : 개체 타입과 속성을 연결

- 밑줄 친 속성은 기본키를 나타낸다.

 

4. 정보 공학 표기법(Information Engineering Notation)

- 정보 공학 표기법은 1981년에 클리프 핀켈쉬타인과 제임스 마틴이 공동 개발하였다.

- 개체는 사각형 박스로 표시하고 개체명은 박스 바깥쪽 위에 표시한다.

- 속성은 기본키 속성과 일반 속성을 분리하여 표시한다.

- 관계는 관께 표기 기호를 사용하여 표시한다.

 

5. 바커 표기법

- 영국 컨설팅 회사 CACI에서 개발하였고, 리차드 바커에 의해 정립되었다.

- 개체는 모서리가 둥근 박스로 표시하고 개체명은 박스 안 가장 위에 표시한다.

- 속성은 반드시 값이 저장되어야 하는경우 *(Mandatory)를 표시하고, 값이 저장될 수도, 안될 수도 있는 경우 O(Optional)을 표시한다.

- 관계는 관계 표기 기호를 사용하여 표시한 후 해당 개체의 역할을 동사적 단어로 입력한다.

 

Section 78 관계형 데이터베이스의 구조

1. 관계형 데이터베이스의 개요

- 1970년 근무하던 코드(E. F. Codd)에 의해 처음 제안되었다.

- 관계형 데이터베이스를 구성하는 개체(Entity)나 관계(Relationship)를 모두 릴레이션(Realtionship)이라는 표(Table)로 표현한다.

- 릴레이션은 개체를 표현하는 개체 릴레이션, 관계를 나타내는 관계 릴레이션으로 구분할 수 있다.

- 장점 : 간결하고 보기 편리하며, 다른 데이터베이스로의 변환이 용이하다.

- 단점 : 성능이 다소 떨어진다.

 

2. 관계형 데이터베이스의 Relation 구조

- 릴레이션은 데이터들을 표의 형태로 표현한 것으로 구조를 나타내는 릴레이션 스키마와 실제 값들인 릴레이션 인스턴스로 구성된다.

튜플(Tuple)

- 튜플은 릴레이션을 구성하는 각각의 행을 말한다.

- 튜플은 속성의 모임으로 구성된다.

- 파일 구조에서 레코드와 같은 의미이다.

- 튜플의 수를 카디널리티(Cardinality) 또는 기수, 대응수라고 한다.

 

속성(Attribute)

- 속성은 데이터베이스를 구성하는 가장 작은 논리적 단위이다.

- 파일 구조상의 데이터 항목 또는 데이터 필드에 해당된다.

- 속성은 개체의 특성을 기술한다.

- 속성의 수를 디그리(Degree) 또는 차수라고 한다.

 

도메인(Domain)

- 하나의 애트리뷰트가 취할 수 있는 같은 타입의 원자(Atomic)값들의 집합이다.

- 도메인은 실제 애트리뷰트 값이 나타낼 때 그 값의 합법 여부를 시스템이 검사하는데에도 이용된다.

 

3. 릴레이션의 특징

- 한 릴레이션에는 똑 같은 튜플이 포함될 수 없으므로 릴레이션에 포함된 튜플들은 모두 상이하다.

- 한 릴레이션에 포함된 튜플 사이에는 순서가 없다.

- 튜플들의 삽입, 삭제 등의 작업으로 인해 릴레이션은 시간에 따라 변한다.

- 릴레이션 스키마를 구성하는 속성들 간의 순서는 중요하지 않다.

- 속성의 유일한 식별을 위해 속성의 명칭은 유일해야 하지만, 속성을 구성하는 값은 동일한 값이 있을 수 있다.

- 릴레이션을 구성하는 튜플을 유일하게 식별하기 위해 속성들의 부분집합을 키(Key)로 설정한다.

- 속성의 값은 논리적으로 더 이상 쪼갤 수 없는 원자값만을 저장한다.

 

Section 79 관계형 데이터베이스의 제약 조건  (Key)

- 제약 조건이란 데이터베이스에 저장되는 데이터의 정확성을 보장하기 위하여 키(Key)를 이용하여 입력되는 데이터에 제한을 주는 것으로 개체 무결성 제약, 참조 무결성 제약 등이 해당된다.

1. (Key)의 개념 및 종류

- 데이터베이스에서 조건에 만족하는 튜플을 찾거나 순서대로 정렬할 때 튜플들을 서로 구분할 수 있는 기준이 되는 애트리뷰트를 말한다.

 

2. 후보키(Candidate Key)

- 릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용하는 속성들의 부분집합, 즉 기본키로 사용할 수 있는 속성들을 말한다.

- 하나의 릴레이션내에서는 중복된 튜플들이 있을 수 없으므로 모든 릴레이션에는 반드시 하나 이상의 후보키가 존재한다.

- 후보키는 릴레이션에 있는 모든 튜플에 대해서 유일성과 최소성을 만족시켜야 한다.

- 유일성(Unique) : 하나의 키 값으로 하나의 튜플만을 유일하게 식별할 수 있어야 한다.

- 최소성(Minimality) : 모든 레코드들을 유일하게 식별하는 데 꼭 필요한 속성으로만 구성되어야 한다.

 

3. 기본키(Primary Key)

- 기본키는 후보키 중에서 특별히 선정된 주키(Main Key)로 중복된 값을 가질 수 없다.

- 한 릴레이션에서 특정 튜플을 유일하게 구별할 수 있는 속성이다.

- 기본키는 후보키의 성질을 가는다. , 유일성과 최소성을 가지며 튜플을 식별하기 위해 반드시 필요한 키이다.

- 기본키는 NULL 값을 가질 수 없다. 즉 튜플에서 기본키로 설정된 속성에는 NULL 값이 있어서는 안된다.

 

4. 대체키(Alternate Key)

- 후보키가 둘 이상일 때 기본키를 제외한 나머지 후보키를 의미한다.

- 보조키라고도 한다.

 

5. 슈퍼키(Super Key)

- 한 릴레이션 내에 있는 속성들의 집합으로 구성된 키로서 릴레이션을 구성하는 모든 튜플들 중 슈퍼키로 구성된 속성의 집합과 동일한 값은 나타나지 않는다.

- 슈퍼키는 릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족시키지만, 최소성은 만족시키지 못한다.

 

6. 외래키(Foreign Key)

- 다른 릴레이션의 기본키를 참조하는 속성 또는 속성들의 집합을 의미한다.

- 참조되는 릴레이션의 기본키와 대응되어 릴레이션 간에 참조 관계를 표현하는데 중요한 도구이다.

- 한 릴레이션에 속한 속성 A와 참조 릴레이션의 기본키인 B가 동일한 도메인 상에서 정의되었을 때의 속성 A를 외래키라고 한다.

- 외래키로 지정되면 참조 릴레이션의 기본키에 없는 값은 입력할 수 없다.

 

Section 81 관계대수 및 관계해석

1. 관계대수의 개요

- 관계대수는 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해서 어떻게 유도하는가를 기술하는 절차적인 언어이다.

- 관계대수는 릴레이션을 처리하기 위해 연산자와 연산규칙을 제공하는 언어로 피연산자가 릴레이션이고, 결과도 릴레이션이다.

- 질의에 대한 해를 구하기 위해 수행해야 할 연산의 순서를 명시한다.

- 관계대수에는 관계 데이터베이스에 적용하기 위해 특별히 개발한 순수 관계 연산자와 수학적 집합 이론에서 사용하는 일반 집합 연산자가 있다.

- 순수 관계 연산자: Select, Project, Join, Division

- 일반 집합 연산자: UNION(합집합), INTERSECTION(교집합), DIFFERENCE(차집합), CARTESIAN PRODUCT(교차곱)

 

2. Select

- 릴레이션에 존재하는 튜플 중에서 선택 조건을 만족하는 튜프의 부분집합을 구하여 새로운 릴레이션을 만드는 연산이다.

- 릴레이션의 행에 해당하는 튜플을 구하는 것이므로 수평 연산이라고도 한다.

- 연산자의 기호는 그리스 문자 시그마를 사용한다

.표기 형식 σ(R)

- R은 릴레이션 이름이다.

- 조건에서는 비교 연산이 허용되며, 논리 연산자를 사용하여 여러 개의 조건들을 하나의 조건으로 결합시킬 수도 있다.

 

3. Project

- 주어진 릴레이션에서 속성 리스트(Attribute List)에 제시된 속성 값만을 추출하여 새로운 릴레이션을 만드는 연산이다. 단 연산 결과에 중복이 발생하면 중복이 제거된다.

- 릴레이션의 열에 해당하는 Attribute를 추출하는 것이므로 수직 연산자라고도 한다.

- 연산자의 기호는 그리스 문자 파이(π)를 사용한다.

- 표기 형식 : π(R)

 

4. Join

- 공통 속성을 중심으로 두 개의 릴레이션을 하나로 합쳐서 새로운 릴레이션을 만드는 연산이다.

- Join의 결과로 만들어진 릴레이션의 차수는 조인된 두 릴레이션의 차수를 합한 것과 같다.

- Join의 결과는 Cartesian Product(교차곱)을 수행한다음 Select를 수행한 것과 같다.

 

※ 자연 조인(Natural Join)

- 조인 조건이 ‘=’일 떄 동일한 속성이 두 번 나타나게 되는데, 이중 중복된 속성을 제거하여 같은 속성을 한 번만 표기하는 방법을 자연 조인이라고 한다.

- 자연 조인이 성립되려면 두 릴레이션의 속성명과 도메인이 같아야 한다.

 

5. Division

- XY인 두 개의 릴레이션 R(X) S(Y)가 있을 때, R의 속성이 S의 속성값을 가진 모두 가진 튜플에서 S가 가진 속성을 제외한 속성만을 구하는 연산이다.

- 연산자의 기호는 ÷를 사용한다.

- 표기형식 : R[속성r ÷ 속성s] S

- 속성 r은 릴레이션 R의 속성, 속성 s는 릴레이션 S의 속성, 속성 r과 속성 s는 동일 속성값을 가지는 속성이어야 한다.

 

6. 일반 집합 연산자는 수학적 집합 이론에서 사용하는 연산자로서 릴레이션 연산에도 그대로 적용할 수 있다.

- 일반 집합 연산자 중 합집합(UNION), 교집합(INTERSECTION), 차집합(DIFFERENCE)을 처리하기 위해서는 합병 조건을 만족해야 한다.

- 합병 가능한 두 릴레이션 R S가 있을 때 각 연산의 특징을 요약하면 다음과 같다.

 

합집합 UNION

- 두 릴레이션에 존재하는 튜플의 합집합을 구하되, 결과로 생성된 릴레이션에서 중복되는 튜플은 제거되는 연산이다.

- R  S = {t | t  R  t  S} (t는 릴레이션 R또는 S에 존재하는 튜플)

- 카디널리티 (|RS|  |R| + |S|) : 합집합의 카디널리티는 두 릴레이션 카디널리티의 합보다 크지 않다.

 

교집합 INTERSECTION

- 두 릴레이션에 존재하는 튜플의 교집합을 구하는 연산이다.

- R  S = {t | t  R  t  S } – t는 릴레이션 R 그리고 S에 동시에 존재하는 튜플이다.

- 카디널리티 (|RS|  MIN{|R|,|S|}) : 교집합의 카디널리티는 두 릴레이션 중 카디널리티가 적은 릴레이션의 카디널리티보다 크지 않다.

 

차집합 DIFFERENCE

- 두 릴레이션에 존재하는 튜플의 차집합을 구하는 연산이다.

- R – S = {t|t  R  t / S } (t는 릴레이션 R에는 존재하고 S에 없는 튜플이다.

- 카디널리티 (|R-S|  |R|) : 차집합의 카디널리티는 릴레이션 R의 카디널리티보다 크지 않다.

 

교차곱 CARTESIAN PRODUCT

- 두 릴레이션에 있는 튜플들의 순서쌍을 구하는 연산이다.

- R X S = {rs| r  R  s  S} (r R에 존재하는 튜플이고, s S에 존재하는 튜플이다.)

- |R X S | = |R| X |S|

- 교차곱은 두 릴레이션의 카디널리티를 곱한 것과 같다.

 

7. 관계해석(Relational Calculus)

- 관계 데이터 모델의 제안자인 코드(E. F. Codd)가 수학의 Predicate Calculus(술어 해석)에 기반을 두고 관계 데이터베이스를 위해 제안했다.

- 관계해석은 관계 데이터의 연산을 두고 표현하는 방법으로, 원하는 정보를 정의할 때는 계산 수식을 사용한다.

- 관계해석은 원하는 정보가 무엇이라는 것만 정의하는 비절차적인 특성을 지닌다.

- 튜플 관계해석과 도메인 관계해석이 있다.

- 기본적으로 관계해석과 관계대수는 관계 데이터베이스를 처리하는 기능과 능력면에서 동등하며, 관계대수로 표현한 식은 관게해석으로 표현할 수 있다.

 

Section 82 정규화(Normalization)

1. 정규화의 개요

- 함수적 종속성 등의 종속성 이론을 이용하여 잘못 설계된 관계형 스키마를 더 작은 속성의 세트로 쪼개어 바람직한 스키마로 만들어 가는 과정이다.

- 하나의 종속성이 하나의 릴레이션에 표현될 수 있도록 분해해가는 과정이라 할 수 있다.

- 정규형에는 제1정규형, 2정규형, 3정규형, BCNF, 4정규형, 5정규형이 있으며, 차수가 높아질수록 만족시켜야 할 제약 조건이 늘어난다.

- 정규화는 데이터베이스의 논리적 설계 단계에서 수행한다.

- 정규화는 논리적 처리 및 품질에 큰 영향을 미친다.

- 정규화된 모든 데이터 모델은 일관성, 정확성, 단순성, 비중복성, 안정성 등을 보장한다.

- 정규화 수준이 높을수록 유연한 데이터 구축이 가능하고 데이터의 정확성이 높아지는 반면 물리적 접근이 복잡하고 너무 많은 조인으로 인해 조회 성능이 저하된다.

 

2. 정규화의 목적

- 데이터 구조의 안성정 및 무결성을 유지한다.

- 어떠한 릴레이션이라도 데이터베이스 내에서 표현 가능하게 만든다.

- 효과적인 검색 알고리즘을 생성할 수 있다.

- 데이터 중복을 배제하여 이상(Anomaly)의 발생 방지 및 자료 저장 공간의 최소화가 가능하다.

- 데이터 삽입 시 릴레이션을 재구성할 필요성을 줄인다.

- 데이터 모형의 단순화가 가능하다.

- 속성의 배열 상태 검증이 가능하다.

- 개체와 속성의 누락 여부 확인이 가능하다.

- 자료 검색과 추출의 효율성을 추구한다.

 

3. 이상(Anomaly)의 개념 및 종류

- 정규화를 거치지 않으면 데이터베이스 내에 데이터들이 불필요하게 중복되어 릴레이션 조작 시 예기치 못한 곤란한 현상이 발생하는데, 이를 이상(Anomaly)이라 하며 삽입 이상, 삭제 이상, 갱신 이상이 있다.

- 삽입 이상(Insertion Anomaly) : 릴레이션에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들도 함께 삽입되는 현상이다.

- 삭제 이상(Deletion Anomaly) : 릴레이션에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는 연쇄가 일어나는 현상이다.

- 갱신 이상(Update Anomaly) : 릴레이션에서 튜플에 있는 속성값을 갱싱할 때 일부 튜플의 정보만 갱신되어 정보에 모순이 생기는 현상이다.

 

4. 정규화의 원칙

- 정보의 무손실 표현, 즉 하나의 스키마를 다른 스키마로 변환할 때 정보의 손실이 있어서는 안 된다.

- 분리의 원칙, 즉 하나의 독립된 관계성은 하나의 독립된 릴레이션으로 분리시켜 표현해야 한다.

- 데이터의 중복성이 감소되어야 한다.

 

5. 정규화 과정

1NF(1정규형)

- 1NF는 릴레이션에 속한 모든 도메인이 원자값(Atomic Value)만으로 되어 있는 정규형이다. , 릴레이션의 모든 속성 값이 원자 값으로만 되어 있는 정규형이다.

 

2NF(2정규형)

- 2NF는 릴레이션 R 1NF이고, 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족하는 정규형이다.

 

※ 함수적 종속/ 완전/부분 함수적 종속 및 이해

함수적 종속(Functional Dependency)

- 함수적 종속은 데이터들이 어떤 기준값에 의해 종속되는 것을 의미함.

 

완전 함수적 종속

- 어떤 테이블 R에서 속성 A가 다른 속성 집합 B 전체에 대해 함수적 종속이지만 속성 집합 B의 어떠한 진 부분 집합 C에는 함수적 종속이 아닐 때, 속성 A는 속성 집합 B에 완전 함수적 종속이라고 한다.

 

부분 함수적 종속

- 어떤 테이블 R에서 속성 A가 다른 속성 집합 B 전체에 대해 함수적 종속이면서 속성 집합 B의 어떠한 진부분 집합에도 함수적 종속일 때, 속성 A는 속성 집합 B에 부분 함수적 종속이라고 한다.

 

완전/부분 함수적 종속의 이해

- 완전 함수적 종속은 어떤 속성이 기본키에 대해 완전히 종속적일 때를 말한다.

 

3NF(3정규형)

- 릴레이션 R 2NF이고, 기본키가 아닌 모든 속성이 기본키에 대해 이행적 종속을 만족하지 않는 정규형이다.

- 무손실 조인 또는 종속성 보존을 저해하지 않고도 항상 3NF 설계를 얻을 수 있다.

 

BCNF(Boyce-Codd 정규형)

- BCNF는 릴레이션 R에서 결정자가 모두 후보키(Candidate Key)인 정규형이다.

- 키가 아닌 모든 속성은 각 키에 대하여 완전 종속해야 한다.

- 키가 아닌 모든 속성은 그 자신이 부분적으로 들어가 있지 않은 모든 키에 대하여 완전 종속해야 한다.

- 어떤 속성도 키가 아닌 속성에 대해서는 완전 종속할 수 없다.

 

4NF(4정규형)

- 릴레이션 R에 다치 종속이 성립하는 경우 R의 모든 속성이 A에 함수적 종속 관계를 만족하는 정규형이다.

 

5NF(5정규형, PJ/NF)

- 릴레이션 R의 모든 조인 종속이 R의 후보키를 통해서만 성립되는 정규형이다.

 

※ 정규화 과정 정리

비정규 릴레이션 => 1NF => 2NF => 3NF => BCNF => 4NF => 5NF

 

 

 

 

Section 84 시스템 카탈로그

1. 시스템 카탈로그(System Catalog)의 의미

- 시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 데이터베이스이다.

- 시스템 카탈로그 내의 각 테이블은 사용자를 포함하여 DBMS에 지원하는 모든 데이터 객체에 대한 정의나 명세에 관한 정보를 유지 관리하는 시스템 테이블이다.

- 카탈로그들이 생성되면 데이터 사전(Data Dictionary)에 저장되기 때문에 좁은 의미로는 카탈로그를 데이터 사전이라고도 한다.

 

2. 시스템 카탈로그 저장 정보

- 메타 데이터(Meta-Data)라고도 한다.

※ 메타 데이터의 유형

- 데이터베이스의 객체 정보 : 테이블, 인덱스, 뷰 등의 구조 및 통계 정보

- 사용자 정보 : 아이디, 패스워드, 접근 권한 등

- 테이블의 무결성 제약 조건 정보 : 기본키, 외래키, NULL 값 허용 여부 등

- 함수, 프로시저, 트리거 등에 대한 정보

 

3. 카탈로그 특징

- 카탈로그 자체도 시스템 테이블로 구성되어 있어 일반 이용자도 SQL을 이용하여 내용을 검색해 볼 수 있다.

- INSERT, DELETE, UPDATE 문으로 카탈로그를 갱신하는 것은 허용되지 않는다.

- 데이터베이스 시스템에 따라 상이한 구조를 갖는다.

- 카탈로그는 DBMS가 스스로 생성하고 유지한다.

- 카탈로그의 갱신 : 사용자가 SQL문을 실행시켜 기본 테이블, , 인덱스 등에 변화를 주면 시스템이 자동으로 갱신한다.

- 분산 시스템에서의 카탈로그 : 보통의 릴레이션, 인덱스, 사용자 등의 정보를 포함할 뿐 아니라 위치 투명성 및 중복 투명성을 제공하기 위해 필요한 모든 제어 정보를 가져야 한다.

 

4. 카탈로그/데이터 사전을 참조하기 위한 DBMS 내의 모듈 시스템

- 데이터 정의어 번역기(DDL Compiler) : DDL을 메타 데이터를 갖는 테이블로 변환하여 데이터 사전에 저장시킨다.

- 데이터 조작어 번역기(DML Compiler) : 응용 프로그램에 삽입된 DML문을 주 언어로 표현한 프로시저 호출로 변환하여 질의 처리기와 상호 통신한다.

Data Directory

- 데이터 사전에 수록된 데이터를 실제로 접근하는 데 필요한 정보를 관리 유지하는 시스템이다.

- 시스템 카탈로그는 사용자와 시스템 모두 접근할 수 있지만 데이터 디렉터리는 시스템만 접근할 수 있다.

- 질의 최적화기 : 사용자의 요구를 효율적인 형태로 변환하고 질의를 처리하는 좋은 전략을 모색한다.

- 트랜잭션 처리기 : 복수 사용자 환경에서 평행으로 동시에 일어나는 트랜잭션 문제를 해결하여, 각각의 사용자가 데이터베이스 자원을 배타적으로 이용할 수 있도록 한다.

  Comments,     Trackbacks