Chunggi Paul Kim's Blog: SQL 전문가 가이드 2장 1절(표준조인)

제1절 표준 조인(STANDARD JOIN)

1. STANDARD SQL 개요

1970년: Dr. E.F.Codd 관계형 DBMS(Relational DB) 논문 발표

1974년: IBM SQL 개발

1979년: Oracle 상용 DBMS 발표

1980년: Sybase SQL Server 발표 (이후 Sybase ASE로 개명)

1983년: IBM DB2 발표

1986년: ANSI/ISO SQL 표준 최초 제정 (SQL-86, SQL1)

1992년: ANSI/ISO SQL 표준 개정 (SQL-92, SQL2)

1993년: MS SQL Server 발표 (Windows OS, Sybase Code 활용)

1999년: ANSI/ISO SQL 표준 개정 (SQL-99, SQL3)

2003년: ANSI/ISO SQL 표준 개정 (SQL-2003)

2008년: ANSI/ISO SQL 표준 개정 (SQL-2008)

현재 사용하는 SQL의 많은 기능이 관계형 데이터베이스의 이론을 수립한 E.F.Codd 박사의 논문에 언급이 되어 있다. 논문에 언급된 8가지 관계형 대수는 다시 각각 4개의 일반 집합 연산자와 순수 관계 연산자로 나눌 수 있으며, 관계형 데이터베이스 엔진 및 SQL의 기반 이론이 되었다.

일반 집합 연산자를 현재의 SQL과 비교하면,

1. UNION 연산은 UNION 기능으로,

2. INTERSECTION 연산은 INTERSECT 기능으로,

3. DIFFERENCE 연산은 EXCEPT(Oracle은 MINUS) 기능으로,

4. PRODUCT 연산은 CROSS JOIN 기능으로 구현되었다

첫번째, union 연산은 수학적 합집합을 제공하기 위해, 공통 교집합의 중복을 없애기 위한 사전 작업으로 시스템에 부하를 주는 정렬 작업이 발생한다. 이후 union all 기능이 추가 되었는데, 특별한 ㅛㅇ구 사항이 없다면 공통집합을 중복해서 그대로 보여 주기 때문에 정렬 작업이 일어나지 않는 장점을 가진다. 만일 union 과 union all의 출력 결과가 같다면, 응답 속도 향상이나 자원 효율화 측면에서 데이터 정렬 작업이 발생하지 않는 union all 을 사용하는 것을 권고한다.

두번째, intersection은 수학의 교집합으로써 두 집합의 공통집합을 추출한다.

세번째, difference는 수학의 차집합으로써 첫 번째 집합에서 두 번째 집합과의 공통집합을 제외한 부분이다.

네번째, product의 경우는 cross product라고 불리는 곱집합으로, join 조건이 없는 경우 생길 수 있는 모든 데이터의 조합을 말한다. 양쪽 집합의 M*N 건의 데이터 조합이 발생하며, cartesian product라고도 표현한다.

나. 순수 관계 연산자

순수 관계 연산자는 관계형 데이터베이스를 구현하기 위해 새롭게 만들어진 연산자이다. 순수관계 연산자를 현재의 SQL문장과 비교하면 다음과 같다.

5. SELECT 연산은 WHERE 절로 구현되었다.

6. PROJECT 연산은 SELECT 절로 구현되었다.

7. (NATURAL) JOIN 연산은 다양한 JOIN 기능으로 구현되었다.

8. DIVIDE 연산은 현재 사용되지 않는다.

다섯번째, SELECT 연산은 SQL 문장에서는 WHERE 절의 조건절 기능으로 구현이 되었다

여섯번째, PROJECT 연산은 SQL 문장에서는 SELECT 절의 칼럼 선택기능으로 구현이 되었다.

일곱번째, JOIN 연산은 WHERE 절의 INNER JOIN 조건과 함께 FROM 절의 NATURAL JOIN, INNER JOIN, OUTER JOIN, USING 조건절, ON 조건절 등으로 가장 다양하게 발전하였다.여덟번째, DIVIDE 연산은 나눗셈과 비슷한 개념으로 왼쪽의 집합을 'XZ'로 나누었을때, 즉 'XZ' 를 모두 가지고 있는 'A'가 답이 되는 기능으로 현재 사용되지 않는다.

관계형 데이터 베이스의 경우 요구사항 분석, 개념적 데이터 모델링, 논리적 데이터 모델링, 물리적 데이터 무델링 단계를 거치게 되는데, 이 단계에서 엔터티 확정 및 정구화 과정, 그리고 M:M 관계를 불해하는 절차를 거치게 된다.

2. FROM절 JOIN형태

ANSI/ISO SQL에서 표시하는 FROM 절의 JOIN 형태는 다음과 같다.

- INNER JOIN

- NATURAL JOIN

- USING 조건절

- ON 조건절

- CROSS JOIN

- OUTER JOIN

ANSI/ISO SQL 에서 규정한 JOIN 문법은 WHERE절을 사용하는 기존방식과 차이가 있다. 사용자는 기존 WHERE 절의 검색 조건과 테이블 간의 JOIN 조건을 구분 없이 사용하던 방식을 그대로 사용할 수 있으면서, 추가된 선택 기능으로 테이블 간의 JOIN 조건을 FROM 절에서 명시적으로 정의할 수 있게 되었다.

3. INNER JOIN

INNER JOIN은 OUTER JOIN과 대비하여 내부 JOIN이라고 하며 JOIN 조건에서 동일한 값이 있는 행만 반환한다. INNER JOIN 표시는 그 동안 WHERE 절에서 사용하던 JOIN 조건을 FROM 절에서 정의하겠따는 표시이므로 USING 조건절이나 ON 조건절을 필수적으로 사용해야 한다.

예제) 사원 번호와 사원 이름, 소속부서 코드와 소속부서 이름 찾기

4. NATURAL JOIN

NATURAL JOIN은 두 테이블 간의 동일한 이름을 갖는 모든 칼럼들에 대해 EQUI(=) JOIN을 수행. NATURAL JOIN이 명시되면, 추가로 USING 조건절, ON 조건절, WHERE 절에서 JOIN 조건을 정의할 수 없다.

NATURAL JOIN은 JOIN이 되는 테이블의 데이터 성격과 칼럼명 등이 동일해야 하는 제약 조건이 있다. 간혹 모델링 상의 부주의로 인해 동일한 칼럼명이더라도 다른 용도의 데이터를 저장하는 경우도 있으므로 주의해서 사용해야 한다.

위 그림의 '*' 와일드 카드처럼 별도의 칼럼 순서를 지정하지 않으면 NATURAL JOIN의 기준이 되는 칼럼들이 다른 칼럼보다 먼저 출력된다.

반면, INNER JOIN의 경우 첫 번째 테이블, 두 번째 테이블의 칼럼 순서대로 데이터가 출력된다.. NATURAL JOIN은 JOIN에 사용된 같은 이름의 칼럼을 하나로 처리하지만, INNER JOIN은 별개의 칼럼으로 표시.

6. ON 조건절

JOIN 서술부와 비 JOIN 서술부를 분리하여 이해가 쉬우며, 칼럼명이 다르더라도 JOIN 조건을 사용할 수 있는 장점이 있다.

첫 번째, INNER JOIN의 결과는 다음과 같다.

양쪽 테이블에 모두 존재하는 키 값이 B-B, C-C 인 2건이 출력된다.

두 번째, LEFT OUTER JOIN의 결과는 다음과 같다.

TAB1을 기준으로 키 값 조합이 B-B, C-C, D-NULL, E-NULL 인 4건이 출력된다.

세 번째, RIGHT OUTER JOIN의 결과는 다음과 같다.

TAB2를 기준으로 키 값 조합이 NULL-A, B-B, C-C 인 3건이 출력된다.

네 번째, FULL OUTER JOIN의 결과는 다음과 같다.

양쪽 테이블을 기준으로 키 값 조합이 NULL-A, B-B, C-C, D-NULL, E-NULL 인 5건이 출력된다.

다섯 번째, CROSS JOIN의 결과는 다음과 같다.

JOIN 가능한 모든 경우의 수를 표시하지만 단, OUTER JOIN은 제외한다.

양쪽 테이블 TAB1과 TAB2의 데이터를 곱한 개수인 4 * 3 = 12건이 추출됨

키 값 조합이 B-A, B-B, B-C, C-A, C-B, C-C, D-A, D-B, D-C, E-A, E-B, E-C 인 12건이 출력된다.

Chunggi Paul Kim's Blog

2013년 2월 12일 화요일

SQL 전문가 가이드 2장 1절(표준조인)

댓글 없음:

댓글 쓰기