티스토리 뷰
희안한 데이터를 보았다.
한글 데이터가 DB에 저장되는데 내용의 일부만 한자로 표시되는 일이다.
정상 데이터가 출력할 때만 잘못 나오는게 아니고,
아예 잘못 들어간 데이터라 무슨 글자인지 알아낼 방법이 없었다.
그래도 이런저런 시도 끝에 찾아낸 방법은!
구글에서 '한자 [이상한 한자 또는 문자]' 로 검색한다.
나의 검색어는 한글 榮鳴
웹 페이지들 중에 검색한 한자가 들어있는 페이지들이 뜬다.
검색결과 중에 두개 페이지를 들어가 보았다.(보라색 제목)
그런데 정작 검색된 페이지에 들어가보니 저런 한자는 안 보였다.
구글 검색결과에 있는 한자 앞 한글로 검색해보았다.
추측해봤을 때 '됬다가' 라는 한글이 구글에서는 榮鳴 이렇게 읽어왔나보다.
추측이니 다른 페이지도 들어가봤는데 역시나 한자는 안 보였다.
이 페이지에서는 '됬다고' 라는 한글이 榮鳴 이렇게 구글에서 나오는 상황!!
어디선가 한글은 완성형, 조합형이 있다고 들어서 euc-kr 전체코드표를 찾아보았다.
http://www.mkexdev.net/Community/Content.aspx?parentCategoryID=4&categoryID=14&ID=125
예상했던대로 '됬' 이란 글자에 해당하는 euc-kr 의 한글코드는 없었다.
검색결과로 뜬 페이지는 인코딩이 euc-kr 로 되어있고,
구글검색결과 페이지의 인코딩은 utf-8 로 되어있어서 문자열 인코딩값을 바꾸면서 에러가 생긴 듯!
검색한 예로 보아 '됬' 이란 한글이 포함된 어절은 통으로 인코딩결과가 잘못 되는 가보다.