문자코드의 바다를 허우적대다

엊그제까지는 유니코드를 헤집고 다니다가 어제부터는 한글코드를 헤매고 있다. 자소 단위로 데이터를 분류하고 입력중인 쿼리를 분석해서 화면에 뿌리기 위해서이다. 우워어… 한글 코드도 정말 난장판이다. 망할 놈의 완성형! 특히 현재 윈95 이상에서 쓰이는 통합 완성형이란 뭔가 잡동사니같은 어감이 드는 이 코드는 기본 완성형에 추가로 현대국어, 고어등을 추가해서 모든 한글을 표현하도록 한 것인데 문제는 이게 뒤죽박죽으로 들어가 있어서 사전식 정렬도 쉽지 않고 초, 중, 종성으로 구분도 할 수 없다. 그래서 이걸 다시 조합형으로 변환을 해서 초, 중, 종성을 분리한 다음 관련 추천검색어들을 추출해 낸다. 그런데 초, 중, 종성 분리도 무척 손이 가는 작업이다.
아무튼간에 한글코드를 이렇게 뒤죽박죽으로 만들어버린 국가 표준 담당자들, 특히 말도 안되는 완성형을 표준으로 채택한 놈들을 찾아가서 확 때려주고 잡다. 그리고 MS!!! 확장 완성형을 MS-Windows에 넣어서 안그래도 짜증나는 완성형을 더 뒤죽박죽으로 만든 놈들!!! 어떻게 일개 회사가 한 나라의 언어를 이렇게 좌지우지 할 수 있단 말인가… 참 답답한 현실이다.

구시렁 구시렁

잡다한 일상 얘기

문자코드의 바다를 허우적대다

댓글 남기기