반응형

안녕하세요. 신기한 연구소입니다.

SQL작업을 하면 정말 거의 필수적으로 사용하는 것 중 하나가 조인(JOIN)인데요.

이번 포스팅은 조인이 어떤 방식으로 수행되는지 옵티마이저의 조인 수행 방법에 대해 살펴볼게요.

사실 이런 부분을 몰라도 그냥 두 개 이상의 테이블을 조인해서 사용하는 데 문제는 없지만

기본 원리를 알고 간다면 무작정 사용하는 것보다 나을 겁니다.

 

 

조인(join)은 두 개 이상의 테이블들을 조회해서 하나의 데이터 그룹(집합)으로 만든다고 볼 수 있습니다.

내부 조인(inner), 외부 조인(outer) 등 개발자는 이런 조인을 이해하고 사용할 것이고

옵티마이저는 이런 조인(join)을 세 가지 조인 방법을 사용합니다.

그럼 하나씩 살펴보겠습니다.

 

Nested Loop Join (중첩 루프 조인, NL Join)

이름이 좀 어렵게 느껴질 수 있습니다.

NL Join으로 불리는데 쉽게 말해서 for문을 2개 사용한다고 보면 됩니다.

두 개의 테이블을 조인(join)하는 경우 선행되는 테이블과 후행 테이블과의 연결을

for문 2개를 사용해서 처리하는 방법과 비슷한 구조입니다.

 

 

위 이미지는 tableA와 tableB를 조인합니다.

먼저 tableA를 for문으로 돌리 듯 조건에 맞는 첫 번째 행을 가지고

두 번째 테이블에 조인을 시도합니다.

두번째 for문의 tableB도 조건에 맞는 첫 번째 행을 추출합니다.

그리고 tableA의 첫번째 행의 조인 조건 값으로 tableB의 첫번째 행의 조인 조건 값이 같은지 비교합니다.

같으면 버퍼에 저장하고 다르면 tableB의 두 번째 행과 비교합니다.

이런 식으로 조건에 맞는 데이터를 찾아다닙니다.

여기서 tableA가 먼저 주도했기에 드라이빙 테이블 또는 외부(Outer) 테이블이라고 합니다.

tableB는 내부(Inner) 테이블이라고 합니다.

 

NL Join 방식을 보면 드리이빙 테이블은 조건 필터된 데이터를 풀 스캔하게 됩니다.

그래서 드리이빙 데이블의 데이터 양이 성능에 영향을 미치게 됩니다.

해당 결과를 가지고 두 번째 테이블에 접근할 때 보통 인덱스를 사용하게 됩니다.

그렇다면 두번째 테이블의 인덱스가 잘 구성되어 있어야 좋은 성능을 낼 수 있겠지요.

 

보통 A=B 조인 조건으로 전체 대상의 15% 이내인 적은 수의 결과를 조회하는 경우

옵티마이저가 이 방식을 선택하게 됩니다.

한 건씩 처리하는 방식으로 작업에 필요한 메모리가 따로 필요하지 않으며

어떤 테이블을 드라이빙 테이블로 선택하는지

인덱스 설정은 잘 되어 있는지에 따라 성능이 좌우됩니다.

 

Sort Merge Join(정렬 병합 조인,  SMJ)

이 방식은 조인하는 컬럼을 기준으로 정렬을 먼저 시도합니다.

테이블 A에서 조건에 맞는 데이터를 추출해서 메모리에 정렬해 둡니다.

테이블 B에서도 조건에 맞는 데이터를 추출해서 메모리에 정렬해 둡니다.

그리고 정렬이 끝나면 메모리에 있는 두 정렬된 데이터를 조인을 진행해서

데이터를 버퍼에 넣습니다.

 

이렇게 양쪽 테이블을 조건에 맞게 정렬을 먼저 시도하기에 작업 중 메모리의 사용이 필요합니다.

정렬하는 데이터의 양이 많아지면 결국 임시 테이블을 사용해야 하기에

디스크 IO가 발생하게 되므로 성능에 영향을 끼치게 됩니다.

이 경우 각자 정렬을 한 뒤 조인하기에 인덱스를 사용하지 않으므로

조인 컬럼에 대한 인덱스가 없어도 사용할 수 있는 방식입니다.

정렬된 데이터를 메모리에 올려서 조인을 하기에 많은 양의 데이터 처리에 유리합니다.

보통 범위 검색 연산자인 <, > 등을 사용하는 경우 옵티마이저가 선택하게 됩니다.

 

Hash Join (해쉬 조인, HJ)

드라이빙 테이블의 추출 데이터를 해쉬 테이블로 구성합니다.

그리고 조인 조건에 따라 해쉬 테이블의 값 하나씩 내부 테이블에 조인을 시도합니다.

HASH_AREA_SIZE에 지정된 메모리 값 내에서 해쉬 테이블을 만들고 = 연산자인 경우에만 사용하게 됩니다.

이 또한 메모리를 사용하기에 드라이빙 테이블의 조건 검색 후

해쉬 테이블로 사용될 데이터가 적으면 좋습니다.

옵티마이저는 이렇게 선택을 할 것이고

혹시 데이터가 메모리 저장 영역을 넘게 되면

임시 테이블에 접근해야 하기에 테이블 IO가 발생하게 됩니다.

그래서 드라이빙 테이블은 결과 값이 적은 게 좋고 이너 테이블은 행이 많아도 괜찮습니다.

 

해시 조인에서는 드라이빙 또는 Outer 테이블을 Build Input이라고 하고

Inner테이블의 경우는 해쉬 값의 존재를 체크하기에 Prove Input이라고도 합니다.

방식은 NL Join과 비슷하지만 NL Join은 별도 메모리 사용 없이 사용하고 랜덤 엑세스를 하는 반면

HJ은 별도 메모리에 해쉬 테이블을 만들어 드라이빙 테이블에서 검색 된 데이터를 만들고 

이너 테이블의 데이터와 조인 조건에 맞게 해쉬 테이블에 엑세스하는 방식으로 차이점이 있습니다.

 

지금까지 우리가 조인을 요청할 때 어떤 방식으로 최적의 성능을 낼 수 있는지

옵티마이저가 선택할 수 있는 조인 방법들에 대해 살펴봤습니다.

잘못된 정보나 수정이 필요하면 댓글 주세요

아래 하트(공감) 버튼을 눌러서 더 다양한 글을 쓸 수 있게 응원 부탁드립니다. 감사합니다.

 

 

반응형
반응형

안녕하세요. 신기한 연구소입니다.

이번 포스팅은 GROUP BY와 관련된 함수들을 살펴보겠습니다.

다양한 함수들이 있는데 제대로 이해해서 사용하는 게 중요합니다.

 

 

그룹관련 함수는 데이터를 그룹화해서 총 건수, 합계, 평균, 최대값, 최솟값, 표준편차, 분산 값을 사용할 수 있는데 그 사용법에 대해 살펴보겠습니다.

 

COUNT  건수 구하기

 

 

Salgrade 테이블의 데이터를 확인해봅니다.

총 9건의 데이터가 존재합니다.

 

테이블의 총 데이터 건수를 알고 싶으면 COUNT를 사용하면 됩니다.

특정 컬럼이 아닌 전체 건수를 찾기에 COUNT(*)로 *를 넣어 검색하면 됩니다.

 

전체 건수인 9가 결과에 나왔습니다.

 

특정 컬럼의 데이터 중 NULL값을 제외한 건수를 구하고 싶다면

COUNT 함수에 원하는 컬럼을 ARGUMENT로 입력하면 됩니다.

LOSAL을 보면 총 9건 중 2건이 NULL입니다.

COUNT(LOSAL)로 검색해보겠습니다.

 

전체를 조회하면 9건이 나오지만 LOSAL을 ARGUMENT로 넣으면

NULL을 제외한 7건만 표시됩니다.

 

SUM(ALL 또는 DISTINCT 표현식)

 

그룹 함수에서 총합을 구하는 함수입니다.

기본적으로 SUM(표현식)으로 사용하며 중복된 숫자는 빼고 합을 구하고자 할 때는

SUM(DISTINCT 표현식)을 사용하면 됩니다. ALL은 디폴트라 생략해도 됩니다.

 

SUM(CCC)와 SUM(ALL CCC)는 값이 같습니다. 같은 의미거든요.

하지만 SUM(DISTINCT CCC)는 중복된 30을 하나만 인식해서

총 합이 30이 적게 나옵니다.

또한 NULL이 있다고 NVL을 사용해서 0으로 변환하는 것은 의미가 없습니다.

괜히 쿼리 시간만 늘리게 되거든요.

어짜피 SUM 함수는 NULL 자체를 계산하지 않거든요.

 

AVG(ALL 또는 DISTINCT 표현식)

 

그룹 함수에서 평균을 구하는 함수입니다.

기본적으로 AVG(표현식)으로 사용하며 중복된 숫자는 빼고 평균을 구하고자 할 때는

AVG(DISTINCT 표현식)을 사용하면 됩니다. ALL은 디폴트라 생략해도 됩니다.

 

 

 

1, 2 라인은 같은 의미입니다. ALL은 생략 가능하거든요.

3라인은  소수점이 나와서 ROUND로 처리했는데 중복된 숫자 20을 하나만 적용되므로

평균 45보다 작은 숫자라 평균 수치가 53.33으로 올라갔습니다.

전체 건수는 5건이고 NULL을 제거한 건수는 4건입니다.

기본적으로 AVG는 NULL을 제거한 총합에 그 건수를 나눕니다.

그래서 45가 나옵니다.

하지만 NULL도 건수에 포함 시킨다면 5로 나누게 되므로 평균이 36으로 줄어듭니다.

평균을 구할 때 총 건수에 대해 처리를 해야 한다면 총건수로 할 건지 NULL이 아닌

실제 더한 값들의 수로 나눌 건지 잘 확인해야 합니다.

이런 경우 총 건수로 해야 한다면 NVL을 사용해서 NULL을 0으로 바꾸면 됩니다.

 

MAX(ALL 또는 DISTINCT 표현식)

MIN(ALL 또는 DISTINCT 표현식)

 

선택된 표현식의 값 중 가장 큰 값은 MAX를 가장 작은 값은 MIN을 사용합니다.

 

 

 

STDDEV(ALL 또는 DISTINCT 표현식)

VARIANCE (ALL 또는 DISTINCT 표현식)

 

사실 위 함수는 표준편차와 분산에 대한 값을 구하는데 실제로 사용했던 기억은 없습니다.

관련 업무를 하지 않았기에 그런 듯합니다.

그래도 관련 업무를 할 수도 있기에 잘 확인해 보시고 필요하면 검색해서 사용하면

된답니다.

 

 

마지막으로 GROUP BY 절을 사용할 때

앞에 WHERE 절에 필요한 데이터를 먼저 필터 한다면

GROUP BY의 부담이 많이 줄어든답니다.

그리고 그 값 중에 그룹 함수를 이용한 조건을 넣고 싶다면

HAVING 절을 활용하면 된답니다.

 

 

위 결과를 보면 ‘K001’과 ‘K002’에 대한 합계를 구한 결과입니다.

여기서 만약 합계가 120 이내인 데이터를 검색하거나

또는 평균 40을 초과하는 데이터를 표현하고 싶다면

다음과 같이 작성하면 됩니다.

 

 

지금까지 그룹 함수에 대해 살펴봤습니다.

실전에서도 자주 사용하는 함수들이니 잘 이해하시고

특히 합계나 통계를 잘못 설정해서 엉뚱한 값이 나오기도 하니

꼭 대사를 하면서 사용하길 권장합니다.

 

잘못된 내용이나 수정이 필요하면 댓글 주세요.

아래 하트(공감) 버튼을 눌러서 더 다양한 글을 쓸 수 있게 응원 부탁드립니다. 감사합니다.

반응형