문자열 인코딩 개념 정리(ASCII/ANSI/EUC-KR/CP949/UTF-8/UNICODE)

2018. 1. 7. 17:36

지금껏 개발을 해오면서 ASCII와 ANSI의 차이에 대해 깊게 생각해 본 적이 없었다.

UTF-8 기본으로 하여 개발을 해왔던 이유도 있거니와

ASCII=ANSI로 생각해도 사실 큰 문제는 없어왔다.

점 하나 그냥 찍어서는 안되는 개발에서 이렇게 기본기가 부족하니

내 실력이 이정도 뿐인 것 아니겠는가.

약간의 짬을 내어 인코딩 관련하여 정리를 해보려고 한다.

ASCII / ANSI / EUC-KR / CP949 / UTF-8 / UNICODE

1. ASCII(American Standard Code for Information Interchange)

ASCII는 최초의 문자열 인코딩이다.

7 bit로 구성되어 있으며, 영어를 위한 문자, 숫자, 특수문자, 기호 등 128개 문자를 표현할 수 있다.

여기서 주목해야 하는 것이 바로 '영어를 위한 문자'이다. (ASCII의 A가 'American'인 점을 주목)

ASCII에서는 영어만을 고려하여 만들어졌고, 일본어 중국어 등 다른 언어는 표현이 불가능하다.

이후 다른 언어를 지원해야 할 필요가 생겨 만들어진 인코딩이 ANSI이다.

ASCII 문자표는 여기서 확인 가능하다.

2. ANSI(American National Standard Institute)

ANSI는 8bit로 구성되어 있으며 256개의 문자를 표현할 수 있다.

ANSI는 ASCII의 확장판으로 이해하면 된다.

그 이유는 ASCII에서 1bit를 더 사용한 것이기 때문이다.

ANSI의 앞 7bit는 ASCII와 동일하고, 뒤에 1bit를 이용하여 다른 언어의 문자를 표현한다.

그런데 새로 추가 된 128개 문자로는 모든 언어의 문자를 표현할 수 없다.

그래서 생긴 개념이 CodePage 이다.

각 언어별로 Code 값을 주고, Code마다 다른 문자열 표를 의미하도록 약속을 했다.

쉽게 생각하면 아래와 같이 설명할 수 있겠다.

ANSI = ASCII(7bit) + CodePage(1bit)

이러한 원리를 고려하면 다음과 같이 정리할 수 있다.

첫째, 영어만 사용하거나 ASCII를 사용할 경우 세계 어디에서나 사용에 문제가 없다.

둘째, 영어 외 다른 언어를 사용할 경우 ANSI는 Code Page를 동일하게 맞춰야 한다.

Code Page가 다를 경우 의도와 다른 결과가 나올 수 있다.

3. EUC-KR(Extended Unix Code-Korea)

EUC-KR은 한글 지원을 위해 유닉스 계열에서 나온 완성형 코드 조합이다.

완성형 코드란 완성 된 문자 하나하나마다 코드 번호를 부여한 것이다.

반대되는 개념으로 조합형 코드가 있는데, 이는 한글의 자음과 모음 각각에 코드 번호를 부여한 후 초성, 중성, 종성을 조합하여 하나의 문자를 나타내는 방식을 말한다.

EUC-KR은 ANSI를 한국에서 확장한 것으로 외국에서는 지원이 안 될 가능성이 높다.

4. CP949(Code Page 949)

CP949는 한글 지원을 위해 윈도우즈 계열에서 나온 확장 완성형 코드 조합이다.

EUC-KR은 2bytes의 완성형 코드로 2bytes 내에서는 표현할 수 있는 완성된 문자의 수는 한계가 있었다.

그래서 마이크로소프트에서 EUC-KR을 개선, 확장하여 만든 것이 CP949 이다. 여기서 949는 페이지 번호를 의미하며 한국을 의미한다. (참고로 일본어는 CP932, 중국어 간체는 CP936이다.)

기본적으로 EUC-KR과 호환이 되며, EUC-KR에서 표현이 되지 않는 문자는 조합을 하여 표현한다.

마이크로소프트가 만들었다고 하여 MS949라고 부르기도 한다.

5. UTF-8(Universal Coded Character Set + Transformation Format – 8-bit)

UTF-8은 유니코드를 위한 가변 길이 문자 인코딩(멀티바이트) 방식 중 하나로, ANSI의 단점을 보완하기 위해 만들어졌다.

ANSI는 다국어를 지원하기 위해 CodePage 정보를 미리 알고 있어야 한다. UTF-8은 멀티바이트 개념을 사용하여 하나의 Character Set에 거의 모든 문자를 넣었다.

멀티바이트란 표현해야 하는 문자에 따라 글자 크기를 가변으로 변경하여 사용하는 것을 말한다.

ANSI는 고정바이트(1byte) 형태로 최대 256자 까지만 표현이 가능하나 UTF-8은 멀티바이트(1~4bytes)로 최대 1,112,064자 까지 표현이 가능하다.

첫 128자는 ASCII 코드 값으로 ANSI와 UTF-8이 동일하다. 그래서 영어를 사용할 경우 1byte만 사용한다.

2bytes를 사용하며, 중동지역 언어 또는 많은 유럽 언어가 여기에 속한다. 한국,중국,일본 등 동아시아권 언어는 3bytes 이상을 사용한다.

UTF-8은 매우 일반적인 인코딩 방식이지만 3bytes 이상의 문자를 사용할 경우에는 비효율적일 수 있다.

UTF-16은 16bit 기반으로 저장하는 UTF-8의 변형이라고 보면 된다.

한글의 경우 UTF-8로 저장할 경우 3bytes가 필요한데, UTF-16으로 저장하면 2bytes면 되어 용량의 이점이 있다고 한다.

그러나 경우에 따라서는 2bytes 이상을 사용할 경우가 있어 용량의 이점이 크다고 보긴 어렵고,

엔디안 처리를 고려함에 따른 복잡성 증대나 ANSI와 호환이 안되는 단점이 있다.

UTF-32는 모든 문자를 4bytes로 인코딩한다. 문자 변환 알고리즘이나 가변길이 인코딩 방식에 대한 고민을 하고 싶지 않을 때 유용할 수 있다. 그러나 매우 비효율적으로 메모리를 사용하므로 자주 사용되지는 않는다.

UTF-8, UTF-16 모두 유니코드를 지원하기 위한 인코딩 방식이다. 이들을 이해하기 위해서는 유니코드에 대한 이해가 필요하다. 일반적으로 UTF-8과 유니코드를 동일하게 생각하는데 약간의 차이가 있다.

6. UNICODE

UNICODE는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현할 수 있도록 고안된 코드 조합이다.

여기서 주의해야 할 것이 유니코드는 '인코딩'이 아니라는 것이다. 유니코드는 전세계 거의 모든 문자를

2bytes 숫자로 1:1 매핑 시키는 '방식'을 말하고, 유니코드를 표현하는 여러가지 '인코딩' 방식들이 존재하는 것이다.

UTF-8, UTF-16 등이 그 인코딩 중 하나인 것들이다.

유니코드_목록을 통해 매핑 테이블을 확인할 수 있다.

한글은 한글_목록을 보면 된다.

여기서 '가'를 찾아보면 유니코드 값이 'AC00' 인 것을 알 수 있다. 16진수 AC00은 10진수로 44,032 인데 8bit로 나누기에 너무 크다. 이 값을 8bit 단위로 쪼개어 저장하는 방법이 UTF-8이다. (쪼개는 방법은 여기를 참조하자.)

윈도우 비스타 이상에서는 유니코드를 UTF-16으로 인코딩한다.

유니코드 값을 바로 사용하지 않고 UTF-8을 이용하여 사용하다보니 UTF-8=UNICODE 라 생각하기 쉬운데 별 생각 없이 유니코드 목록에서 값을 찾게 되면 맨붕에 빠지기 쉬우니 주의하도록 하자.

'프로그래밍 > etc' 카테고리의 다른 글

Windows/Unix 간 timestamp 변환 (0)	2018.02.26

쏘몽