반응형

안녕하세요. 신기한 연구소입니다.

조인(JOIN)을 사용하지 않고 두 개의 테이블을 사용해서 조회하는 방법으로

집합 연산자를 사용할 수 있습니다.

 

 

수학에서도 배웠던 합집합, 교집합 등과 같은 개념인데요.

총 4가지 연산자가 있으니 각각의 특징을 같이 살펴보도록 합니다.

 

UNOIN

두 개 이상의 쿼리를 작성해서 합집합을 만드는 연산자입니다.

두 개의 쿼리를 합친다면 SELECT 문의 컬럼도 같아야 합니다. 합쳐야 하니까요.

그리고 두 쿼리 사이에 UNION을 넣고 합치면 됩니다.

UNION은 중복된 데이터가 있다면 하나로 표현합니다.

 

 

 

첫 번째 쿼리와 두 번째 쿼리 둘 다 7건이 나옵니다.

UNION으로 결합하면 14건이 아닌 중복된 데이터를 제거하고 9건만

조회됩니다.

 

UNION ALL

 

같은 쿼리를 UNION ALL로 합쳤습니다.

UNION ALL도 합집합이지만 중복된 행도 조회됩니다.

 

 

조회를 하면 각각 7건씩 총 14건이 조회됨을 확인할 수 있습니다.

 

INTERSECT

이 연산자는 교집합을 나타냅니다.

두 쿼리간 같은 값들만 추출해서 보여주는데

SELECT문의 컬럼들 모두가 일치해야 합니다.

 

 

5건이 조회되었습니다.

 

MINUS

이 연산자는 차집합을 나타냅니다.

먼저 조회된 쿼리에서 다음 쿼리의 결과값을 뺀 나머지를 보여줍니다.

 

 

2건이 조회되었습니다.

 

이렇게 4가지 집합 연산자에 대해 알아봤습니다

주의할 점이 있습니다.

 

우선 정렬하는 방법에 주의해야 합니다.

각 쿼리에서 ORDER BY를 사용할 수 없고

SET 연산을 한 마지막 쿼리 뒤로 ORDER BY를 사용할 수 있습니다.

어짜피 여러 개의 쿼리를 합쳐서 하나의 결과를 얻는 게 목적이고

그 결과에 대해 정렬(ORDER BY)를 하는 게 맞겠지요?

미리 ORDER BY 해도 합치는 과정에 의미가 없어지기 때문입니다.

 

 

그리고 BLOB, CLOB 등의 타입의 컬럼은 SELECT문에서 사용할 수 없으며

LONG 타입은 UNION ALL만 SELECT문에서 사용이 가능합니다.

나머지 연산자는 LONG 타입을 사용하면 오류가 납니다.

 

조인(JOIN)해서 데이터를 구하기 힘들거나

두 가지 쿼리에 대해 대사를 하는 과정에서

데이터가 안 맞을 때 교집합, 차집합을 이용해서

잘못된 데이터를 찾는데 활용하곤 했습니다.

 

잘못된 정보나 수정이 필요한 부분이 있으면 댓글 주세요.

아래 하트(공감) 버튼을 눌러서 더 다양한 글을 쓸 수 있게 응원 부탁드립니다. 감사합니다.

반응형
반응형

안녕하세요. 신기한 연구소입니다.

개발을 하다 보면 계층형 쿼리를 만나게 됩니다.

 

 

사실 계층형 쿼리를 제대로 배워서 사용하는 개발자도 있겠지만

그냥 다른 개발자가 만든 것을 복사해서 대충 쓰거나

잘 이해도 못하고 사용하는 경우도 있습니다.

필자도 사실 처음 그랬던 기억이 있습니다. ㅎㅎ

 

 

개발하다 가끔 만나는 쿼리인데 본 적 있나요?

이제 제대로 이해하고 사용해 봅시다~~

 

START WITH절은 루트노드(행)을 명시합니다.

무슨 의미일까요?

EMP 테이블을 확인해 보면 해당 사원의 관리자가 있습니다.

그 관리자가 최종 관리자일수도 있지만

그 관리자도 더 상위 관리자가 있을 수 있습니다.

하지만 결국 마지막 최종 관리자가 있을 것이고

그 최종 관리자는 더 이상 자신의 관리자는 없기에

관리자 컬럼은 NULL일겁니다.

 

 

START WITH

그래서 시작을 최종(최고)관리자부터 해야 하기에

START WITH에서 관리자 컬럼이 NULL인 부분을 조건식으로 넣게 됩니다.

EMP에서 관리자 컬럼 MGR을 보면 ENAME = ‘KING’이 NULL로 되어 있습니다.

최종 관리자라는 의미네요.

 

CONNECT BY

CONNECT BY는 연결 고리를 가지고 목록을 가져옵니다.

먼저 START WITH에서 조건에 맞는 최상위 행을 가져옵니다.

이제 최상위 행 하나를 갖게 되었습니다.

다음으로 최상위 행을 관리자로 갖는 다음 계층 데이터를 가져와야 합니다.

그럼 현재 찾아 온 최상위 관리자의 EMPID를 추출해서 다음 행들을 구해야 합니다.

그 최상위 EMPID를 MGR로 갖는 행들을 찾아야합니다.

CONNECT BY PRIOR EMPID = MGR

연결하는 방식은 미리 구한 앞 행의 EMPID와 구해야 할 MGR이 같은 행들을 구합니다.

그럼 이제 START WITH에서 구한 최상위 행과

그 행의 EMPID를 MGR로 갖는 행들을 갖게 되었습니다.

이제 다음 작업은 최상위 행으로 구한 두번째 계층의 행들을 가지고

그 계층들의 EMPID를 MGR로 갖는 다음 계층의 행들을 구합니다.

그렇게 쭉~ 끝까지 구하면 됩니다.

CONNECT BY PRIOR EMPID = MGR

이 표현식이 이해 되셨나요?

연결 방식은 바로 전에(PRIOR) 구한 계층의 EMPID를 MGR로 갖는 데이터를 구한다.

그렇게 이해하면 되겠습니다.

 

만약 PRIOR을 반대로 설정하면 어떻게 될까요?

CONNECT BY EMPID = PRIOR MGR

연결 방식은 바로 전에(PRIOR) 구한 계층의 MGR을 EMPID로 갖는 데이터를 구한다.

START WITH로 먼저 최상위 행을 구했는데..

그 다음 구할 계층이 최상위 행의 MGR (최상위니 NULL이죠?) 을 EMPID로 갖는 값은

없겠네요..NULL이니까요.

 

이해가 되셨나요?

 

이제 계층형 쿼리를 만들 수 있게 되었으니 더 다양한 기능을 살펴보겠습니다.

 

 

LEVEL

계층형 쿼리를 조회하면 현재 행이 계층의 몇번째 레벨인지 표시해 줍니다.

계층형 쿼리에서만 사용하는 모조 컬럼입니다. 실제 테이블에 있는 컬럼은 아니지만

SELECT 문에서 사용할 수 있는 컬럼입니다.

최상층 레벨을 1로 해서 쭉~ 2, 3, 4로 나옵니다.

 

 

이 LEVEL을 가지고 여백을 주거나 다른 용도로 활용할 수 있습니다.

 

CONNECT_BY_ROOT

현재 조회된 행들의 최상위 정보를 보여줍니다. 역시 모조 컬럼입니다.

CONNECT_BY_ROOT(ENAME), CONNECT_BY_ROOT ENAME

 

이렇게 두가지 방식으로 사용할 수 있습니다.

 

CONNECT_BY_ISLEAF

현재 행이 마지막 계층의 데이터인지 확인하는 기능입니다.

모조 컬럼입니다.

즉 LEAF를 만나면 1을 반환하고 아니면 0을 반환합니다.

 

 

 

CONNECT_BY_ISCYCLE

현재 행의 조상이기도 한 자식을 갖는 경우 1을 반환합니다.

이 모조 컬럼을 사용하기 위해서는

CONNECT BY 다음에 NOCYCLE를 사용해야 합니다.아래 쿼리를 확인해봅니다.

 

 

 

상위 계층의 부모가 자식이 되는 크로스 상황이 되어 있습니다.

이런 경우 부모가 잘못 설정된 부분을 찾기 위해 사용하면 되겠네요.

 

SYS_CONNECT_BY_PATH( 컬럼, 구분자)

 

루트 노드부터 해당 행까지의 경로를 입력한 컬럼 기준으로

구분자를 사용해서 보여줍니다.

 

 

지금까지 계층형 쿼리를 알아봤습니다.

 

(추가)

하나 더 빠진 부분인데요.

ORDER SIBLINGS BY에 대해 알아볼께요.

 

 

ORDER BY 없이 조회한 결과 입니다.

레벨 2 이후 정렬이 안된 모습을 볼 수 있습니다.

 

 

그래서 ORDER BY ENAME 을 추가했습니다.

그런데 결과가 우리가 원하는 계층별로 정렬되는 것이 아닌 

레벨과 전혀 관계없이 그냥 순차적으로 정렬이 되서 계층이 망가졌습니다.

 

 

ORDER SIBLINGS BY ENAME을 사용했습니다.

레벨 단위로 정렬이 잘 되었습니다.이제 SIBLINGS를 사용해서 깔끔한 계층형 쿼리를 만들 수 있습니다.

 

 

이제는 편하게 이용할 수 있겠네요.

잘못된 내용이나 수정이 필요하면 댓글 주세요.

아래 하트(공감) 버튼을 눌러서 더 다양한 글을 쓸 수 있게 응원 부탁드립니다. 감사합니다.

반응형