Search

반응형

'자바스크립트'에 해당되는 글 38건

  1. 2022.12.11 [자바스크립트]정규표현식 문자 클래스, 캐릭터 클래스, Character classes
  2. 2022.11.28 [자바스크립트]정규표현식 만드는 방법, 정규식, regular expression
반응형

안녕하세요. 신기한 연구소입니다.

어려운 정규표현식 하나씩 쉽게 설명해보겠습니다.

다양한 기법이 있지만 먼저 자바스크립트 정규표현식 중 문자 클래스(Character classes)에 대해

예제를 통해 쉽게 접근해보겠습니다.

코딩할 준비되셨나요?

 

문자 클래스(Character classes)

서로 다른 종류의 문자(영문자, 숫자 등)를 구별할 수 있습니다.

문자 또는 문자열과 일치하는 패턴을 만들 때  사용합니다.

정확히 문자와 일치하는 패턴은 /(슬래시)를 사용했습니다.

/az/는 정확히 문자열 내에서 az를 찾는다는 패턴입니다.

문자 클래스(Character classes)는 대괄호[]를 사용합니다.

대괄호 안의 문자 하나하나를 각각 인식하는 개념입니다.

[az]는 a 또는 z와 일치하는 패턴입니다.

문자 클래스(Character classes)는 하이픈(-)을 사용해서 범위도 지정할 수 있습니다.

[a-z]처럼 코딩하면 a부터 z까지 범위를 패턴으로 정했다는 의미입니다.

설명보단 예제를 통해서 코딩을 직접 하는 것이 더 이해가 빠릅니다.

 

대괄호 사용.

a 또는 t 또는 z와 일치하는 패턴을 정했습니다.

1
2
3
4
5
6
7
8
let pattn1 = /[atz]/;
const txt1 = 'He is a teacher'
console.log(txt1.match(pattn1));
console.log(pattn1.exec(txt1));
 
//결과
(1) ['a', index: 6, input: 'He is a teacher', groups: undefined]
(1) ['a', index: 6, input: 'He is a teacher', groups: undefined]
cs

3개의 문자(atz)중 가장 먼저 만나는 문자는 a이고 위치(index)는 6번째입니다.

위 예제는 예제 문자열 txt1에 match메서드를 패턴을 인자로 넘겨 사용하는 것과

RegExp 내장 함수인 exec를 사용하는 두 가지 예를 보였습니다.

둘 중 어떤 것을 사용해도 괜찮습니다.

1
2
3
4
5
6
pattn1 = /[atzH]/;
const txt1 = 'He is a teacher';   
console.log(txt1.match(pattn1));
 
//결과
'H', index: 0, input: 'He is a teacher', groups: undefined ]
cs

대소문자를 구분하기에 예문의 He에서 H와 매칭 하고 싶다면

패턴에 H가 포함돼야 합니다.

1
2
3
4
5
6
let pattn2 = /[a-t]/;
const txt2 = '-He is a teacher'
console.log(pattn2.exec(txt2));
 
//결과
'e', index: 2, input: '-He is a teacher', groups: undefined ]
cs

대괄호 내 하이픈(-)은 범위를 나타냅니다.

위 패턴은 [abcdefghijklmnopqrst]와 일치합니다. a부터 t까지 입니다.

중요한 것은 He 앞에 특수문자 하이픈(-)이 있지만 인식되지 않습니다.

1
2
3
4
5
6
7
let pattn4 = /[a-e-]/;
 
const txt3 = '-He is a teacher'
console.log(pattn4.exec(txt3));
 
//결과
'-', index: 0, input: '-He is a teacher', groups: undefined ]
cs

패턴에 하이픈(-)이 두 개 있습니다.

첫 번째 a-e는 범위를 나타내는 하이픈이고 두 번째 e다음 하이픈(-)이

특수문자 하이픈을 글자 그대로 인식하는 패턴입니다.

[-a] 또는 [a-]처럼 하이픈을 문자 그대로 인식하고 싶으면 대괄호 패턴 

제일 앞 또는 뒤에 붙이면 됩니다.

또 다른 특징은 뒤에 하이픈을 붙였지만 가장 먼저 인식을 합니다.

1
2
3
4
5
6
7
8
9
10
let pattn5 = /[^a-t]/;
let pattn6 = /[^ab-]/;
 
const txt4 = '-He is a teacher'
console.log(pattn5.exec(txt3)); 
console.log(pattn6.exec(txt3));
 
//결과
['-', index: 0, input: '-He is a teacher', groups: undefined]
['H', index: 1, input: '-He is a teacher', groups: undefined]
cs

대괄호 패턴 내 ^를 붙이면 not과 같은 의미입니다.

패턴과 일치하지 않은 반대 패턴을 전부 해당됩니다.

txt4에서 [a-t]의 ^(not)이면 특수문자 하이픈을 가장 먼저 찾습니다.

[^ab-]는 특수문자 하이픈과 a, b를 제외한 패턴입니다.

그렇다면 제일 먼저 만나는 대문자 H가 대상이 됩니다.

1
2
3
4
let pattn12 = /.a/;  //두자리 문자인데 제외문자 외 어떤 문자 + a와 일치
pattn12 = /a.z///세자리 문자인데 가운데는 제외문자 외 어떤문자가 올 수 있음.
pattn12 = /..d./;  //4글자로 점 3개는 제외문자 외 어떤 문자든 옴.
pattn12 = /..d./;  //4글자로 점 3개는 제외문자 외 어떤 문자든 옴.
cs

점은 문자 1개와 일치합니다. 

라인 종결자인 \n, \r, \u2028, \u2029는 제외됩니다.

/.t/는 at, it 처럼 점에 글자 하나 넣고 마지막은 t와 일치하는 총 2글자인 패턴과 일치합니다.

하지만 not과는 일치하지 않습니다. 왜냐하면 점이 하나이기 때문에 한 글자만 와야 합니다.

not은 t 빼고 no 두 개의 글자라 일치하지 않습니다.

1
2
3
4
5
6
7
8
9
10
11
let txt14 = 'We have 8 apples.';
let pattn14 = /\d/;
 
console.log(pattn14.exec(txt14));
 
pattn14 = /[0-9]/;
console.log(pattn14.exec(txt14));
 
//결과
'8', index: 8, input: 'We have 8 apples.', groups: undefined ]
'8', index: 8, input: 'We have 8 apples.', groups: undefined ]
cs

\d는 모든 숫자(아라비아 숫자)와 일치합니다.

[0-9] 패턴과 동일한 결과를 보입니다.

위 결과를 보면 숫자 8을 매칭 합니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
let txt16 = 'We have 5 apples.';
let pattn16 = /\w/;
console.log(txt16.match(pattn16));
 
txt16 = '#19';
console.log(txt16.match(pattn16));
 
txt16 = '白3';
console.log(txt16.match(pattn16));
 
pattn16 = /[A-Za-z0-9_]/;
console.log(txt16.match(pattn16));
 
//결과
'W', index: 0, input: 'We have 5 apples.', groups: undefined ]
'1', index: 1, input: '#19', groups: undefined ]
'3', index: 1, input: '白3', groups: undefined ]
'3', index: 1, input: '白3', groups: undefined ]
cs

/w는 영문자, 숫자 그리고 언더바(_)와 일치합니다.

[A-Za-z0-9_] 와 동일한 패턴입니다.

1
2
3
4
5
6
7
8
9
10
let txt18 = 'We have 5 apples.';
let pattn18 = /\s/;
console.log(txt18.match(pattn18));
 
pattn18 = /\s\w/;
console.log(txt18.match(pattn18));
 
//결과
' ', index: 2, input: 'We have 5 apples.', groups: undefined ]
' h', index: 2, input: 'We have 5 apples.', groups: undefined ]
cs

 

\s는 공백, 탭, 폼피드, 라인피드 그리고 기타 유니코드 공백을 포함해서

모든 하나의 공백 문자와 일치합니다.

위 예제를 보면 공백을 잘 찾습니다. space의 약자인 듯합니다.

1
2
3
4
5
6
let txt20 = 'We have 5 app\tles.';
let pattn20 = /\t/;
console.log(pattn20.exec(txt20));
 
//결과
'\t', index: 13, input: 'We have 5 app\tles.', groups: undefined ]
cs

탭을 패턴으로 정할 때는 \t를 사용합니다.

1
2
3
4
5
6
7
8
9
10
11
let txt21 = 'We have 5 app\r\nles.';
console.log(txt21);
let pattn21 = /\r/;
console.log(pattn21.exec(txt21));
 
pattn22 = /\n/;
console.log(pattn22.exec(txt21));
 
//결과
'\r', index: 13, input: 'We have 5 app\r\nles.', groups: undefined ]
'\n', index: 14, input: 'We have 5 app\r\nles.', groups: undefined ]
cs

캐리지 리턴과 라인 피트와 일치합니다.

1
2
3
4
5
6
7
8
9
10
11
let txt23 = 'apples';
let pattn23 = /\ba.....\b/;
console.log(pattn23.exec(txt23));
 
pattn23 = /\B./;
console.log(pattn23.exec(txt23));
 
 
//결과
'apples', index: 0, input: 'apples', groups: undefined ]
'p', index: 1, input: 'apples', groups: undefined ]
cs

/b는 단어의 시작과 끝을 표시합니다.

예를 들어 'We are the world' 문장이 있으면/b는 

(We) (are) (the) (world) 처럼 ()의 위치를 매칭 합니다.

\B는 W()e a()r()e t()h()e w()o()r()l()d 처럼 단어 안쪽의 글자 범위를 나타냅니다.

/b 또는 /B 는 위에서 () 을 매칭 합니다.

1
2
3
4
5
6
7
8
9
10
11
let txt23 = 'cass is beer';
let pattn23 = /.s/;
console.log(pattn23.exec(txt23)); 
 
pattn23 = /\b.s\b/;
console.log(pattn23.exec(txt23)); 
 
 
//결과
'ss', index: 2, input: 'cass is beer', groups: undefined ]
'is', index: 5, input: 'cass is beer', groups: undefined ]
cs

만약 is를 찾고 싶은데 /.s/를 패턴으로 실행하면 가장 먼저 만나는 cass의 ss가 출력됩니다.

두 글자 s로 끝나는 단어를 특정한다면

/b를 사용해서 /\b.s\b/ 를 사용하면 범위로 지정하기 때문에 is가 출력됩니다.

이번 포스팅은 문자 클래스, 캐릭터 클래스, Character classes에 대해 알아봤습니다.

간단한 코딩 예제를 사용해서 이해도를 높여봤습니다.

즐 코딩하세요.

반응형
반응형

안녕하세요. 신기한 연구소입니다.

프로젝트를 하다 보면 가끔 정규표현식(정규식 또는 regular expression) 코드를 만나게 됩니다.

개발자로 코딩을 하면서 사실 정규표현식을 자주 접하지는 않고

깊이 공부한 적이 없기에 복잡한 특수 문자들을 보면 뇌 정지가 오곤 합니다.

그래도 개발자로 코딩시 잘 활용하면 편하게 사용할 수 있기에

자바스크립트 정규 표현식을 어떻게 사용하는지

그 방법에 대해 최대한 쉽게 설명해보겠습니다.

 

정규표현식이란?

문자열 내 특정한 패턴을 찾을 수 있는 표현식입니다.

또한 문자열이 정해진 패턴대로 만들어졌는지 확인할 수도 있습니다.

예를 들어 전화번호, 이메일 주소, 홈페이지 주소 등 규격에 맞게 값을 넣을 수 있도록

입력값을 체크하는 경우에도 유용하게 사용할 수 있습니다.

하지만 막상 정규표현식(정규식)을 코딩 개발 시 사용하려면 어렵기도 하고

어떻게 만들고 읽고 해석해야 하는지 막막한 경우가 있더군요.

그래서 왕초보도 따라할 수 있게 최대한 쉽게 설명도 하고

예제도 만들어서 프로젝트 개발에 도움이 되길 기대해봅니다.

 

무엇이 필요할까요?

자바스크립트에서 정규표현식을 사용하기 위해서는

무엇이 필요한지 볼까요?

  • 체크할 대상(문자열, 이메일, 전화번호 등)
  • 체크에 사용할 패턴과 플래그(옵션)
  • 패턴과 플래그를 담을 변수 또는 객체

 

기본 사용법.

먼저 문자열, 이메일, 전화번호 등 체크할 대상을 정해야 합니다.

그렇다면 문자열로 가볍게 시작해 볼까요?

다음,

패턴이 필요합니다.

패턴을 만드는 것은 많이 복잡할 수 있습니다. (특수 문자 등..)

우선 간단한 패턴 하나로 시작해볼게요.

플래그(옵션)도 선택해서 패턴과 같이 조합해 볼 수 있지만 우선은 패턴 먼저 사용해봅니다.

패턴이 정해지면 패턴을 담을 변수(또는 객체)를 선언하고 할당합니다.

그리고 RegExp에서 상속받은 내장 메서드를 사용해서

패턴을 적용 및 사용해 봅니다.

정규표현식은 리터럴을 사용하거나

RegExp() 생성자를 통해서 객체로 만들어 사용할 수 있습니다.

 2가지 방식 중 먼저 리터럴 방식으로 패턴을 만들어 코딩 예제를 만들어볼게요.

 

정규표현식 리터럴로 사용하기.

직접 변수에 패턴을 할당해서 사용하는 방법입니다.

패턴은 /(슬래시)로 시작해서 /(슬래시)로 닫으면 됩니다.

/와 / 사이의 문자들을 패턴으로 인식하게 된다는 의미입니다.

패턴 시작 /

패턴 a

패턴 종료 /

플래그 (옵션)

여기서 플래그는 패턴 종료 슬래시 뒤에 붙여서 사용합니다.

 

예제를 통해 같이 리터럴 정규식을 만들어 보겠습니다.

1. myReg1 상수에 처음 만나는 글자 a 하나만 찾는 패턴을 만든다.

const myReg1 = /a/;

2. myReg2 상수는 처음 만나는 글자 k 하나만 찾는 패턴을 만든다.

const myReg2 = /k/;

두 상수에 할당된 패턴에는 문자열을 나타내는 따옴표가 없다는 것을 잘 확인한다!!!

3. 테스트를 위해 sampleTxt1 변수를 선언하고 샘플 문자열 'abc alphabet'을 할당한다.

const sampleTxt1 = 'abc alphabet';

4. sampleTxt1 문자열에 'a'가 있는지 확인을 하기 위해 정규표현식(RegExp)의

내장 메서드인 test()를 사용하면 된다. ('a'가 하나라도 있으면 true, 전혀~없으면 false)

console.log(myReg1.test(sampleTxt1));   // a가 있으니 true

console.log(myReg2.test(sampleTxt1));  // k가 없으니 false

 

크롬브라우저 F12 Console 에서 테스트

 

지금까지 리터럴을 사용해서 정규표현식을 만들고 코딩해봤습니다.

true/false가 아닌 일치하는 값을 받아보는 코딩을 RegExp의 exec() 메서드로 해보겠습니다.

1. 패턴과 일치하는 정보를 배열로 받기 위해서 smpArr 변수를 선언한다.

let smpArr;

2. 패턴에 매칭되는 정보를 배열에 담는다. exec() 리턴 타입은 Array다.

smpArr = myReg1.exec(sampleTxt1);

3. smpArr값을 출력한다. 배열이기에 [0] 인덱스를 사용할 수 있다.

console.log(smpArr);   //['a', index: 0, input: 'abc alphabet', groups: undefined]

console.log(smpArr[0]);   // a

console.log(ampArr.index);  // 5   a의 첫 번째 위치가 출력된다.

지금까지 리터럴을 사용해서 정규표현식을 만드는 방법에 대해 알아봤습니다.

 

new RegExp() 객체 생성자 사용하기.

RegExp()는 자바스크립트에서 정규표현식의 객체를 만들어 주는 생성자입니다.

생성자는 함수이며 객체를 만들 때 사용합니다.

변수를 선언해서 패턴을 할당하는 리터럴 방식과는 다르게

new 키워드를 사용해서 RegExp()의 새로운 객체를 만드는 방법으로 사용합니다.

그럼 new RegExp()를 사용해 정규표현식(정규식) 패턴 객체를 같이 코딩하며 만들어 볼까요?

1. 객체를 담을 변수를 선언하고 new 키워드로 객체를 생성합니다.

var reObj = new RegExp();

2. 객체는 만들었는데 패턴이 없네요. 패턴을 만드는 방법은 두 가지가 있습니다.

처음 생성자 인자로 패턴을 넣는 방식과 객체에 패턴을 할당하는 방식이 있습니다.

var reObj = new RegExp('s');  또는 var reObj = new RegExp(/s/);

인자로 넘기는 경우는 따옴표나 슬래시 둘 다 가능합니다.

reObj = /s/;

이렇게 객체에 패턴을 직접 할당할 수 있습니다. 당연히 슬래시만 가능합니다.

이렇게 객체를 사용하는 경우는 런타임에 컴파일 되기 때문에

외부에서 패턴을 가져오거나 동적으로 생성할 때 유용합니다.

const pattern = /a/;

const reObj = new RegExp(pattern);

const text = 'My name is sophia';

consloe.log(reObj.exec(text));

 

우리는 이제 자바스크립트에서 정규 표현식을 만들고 사용하는 방법에 대해 알게 되었습니다.

리터럴로 값을 할당해서 사용하는 방법과

new RegExp()로 패턴 객체를 만들어 사용하는 방법

2가지에 대해 알게 되었습니다.

우리는 패턴으로 아주 간단하게 /a/를 사용했지만

실제 특수 문자등을 포함해서 다양한 패턴을 만들 수 있습니다.

또한 플래그 옵션으로 더 풍부한 기능을 사용할 수 있습니다.

다음 포스팅에서 다양한 패턴과 옵션을 어떻게 사용하는지

다양한 예제를 통해 알아보고 자바스크립트 정규표현식을 마스터해보겠습니다.

즐 코딩하세요.

 

반응형