开发一个翻译程序,需要将翻译目标的内容抓取到本地后进行翻译,所以涉及到各种语言的字符集编码,否则将出现乱码,再将搜集到的字符集编码表格与大家共享:
标准代码页
| 字符集标签 |
Win32 代码页 |
字符集名称 |
| ansi_x3.4-1968 |
1252 |
西文 |
| ansi_x3.4-1986 |
1252 |
西文 |
| ascii |
1252 |
西文 |
| big5 |
950 |
繁体中文 (BIG5) |
| chinese |
936 |
简体中文 |
| cp367 |
1252 |
西文 |
| cp819 |
1252 |
西文 |
| csascii |
1252 |
西文 |
| csbig5 |
950 |
繁体中文 (BIG5) |
| cseuckr |
949 |
朝鲜语 |
| cseucpkdfmtjapanese |
CODE_JPN_EUC |
日语 (EUC) |
| csgb2312 |
936 |
简体中文 (GB2312) |
| csiso2022jp |
CODE_JPN_JIS |
日语(JIS-允许 1 位字节片假名) |
| csiso2022kr |
50225 |
朝鲜语 (ISO) |
| csiso58gb231280 |
936 |
朝鲜语 (GB2312) |
| csisolatin2 |
28592 |
中欧字符 (ISO) |
| csisolatinhebrew |
1255 |
希伯来字符 (ISO-Visual) |
| cskoi8r |
20866 |
西里尔字符 (KOI8-R) |
| csksc56011987 |
949 |
朝鲜语 |
| csshiftjis |
932 |
Shift-JIS |
| euc-kr |
949 |
朝鲜语 |
| extended_unix_code_packed_format_for_japanese |
CODE_JPN_EUC |
日语 (EUC) |
| gb2312 |
936 |
简体中文 (GB2312) |
| gb_2312-80 |
936 |
简体中文 (GB2312) |
| hebrew |
1255 |
希伯来语 |
| hz-gb-2312 |
936 |
简体中文 (HZ) |
| ibm367 |
1252 |
西文 |
| ibm819 |
1252 |
西文 |
| ibm852 |
852 |
中欧字符 (DOS) |
| ibm866 |
866 |
西里尔字符 (DOS) |
| iso-2022-jp |
CODE_JPN_JIS |
日语 (JIS) |
| iso-2022-kr |
50225 |
朝鲜语 (ISO) |
| iso-8859-1 |
1252 |
西文 |
| iso-8859-2 |
28592 |
中欧字符 (ISO) |
| iso-8859-8 |
1255 |
希伯来字符 (ISO-Visual) |
| iso-ir-100 |
1252 |
西文 |
| iso-ir-101 |
28592 |
中欧字符 (ISO) |
| iso-ir-138 |
1255 |
希伯来字符 (ISO-Visual) |
| iso-ir-149 |
949 |
朝鲜语 |
| iso-ir-58 |
936 |
简体中文 (GB2312) |
| iso-ir-6 |
1252 |
西文 |
| iso646-us |
1252 |
西文 |
| iso8859-1 |
1252 |
西文 |
| iso8859-2 |
28592 |
中欧字符 (ISO) |
| iso_646.irv:1991 |
1252 |
西文 |
| iso_8859-1 |
1252 |
西文 |
| iso_8859-1:1987 |
1252 |
西文 |
| iso_8859-2 |
28592 |
中欧字符 (ISO) |
| iso_8859-2:1987 |
28592 |
中欧字符 (ISO) |
| iso_8859-8 |
1255 |
希伯来字符 (ISO-Visual) |
| iso_8859-8:1988 |
1255 |
希伯来字符 (ISO-Visual) |
| koi8-r |
20866 |
西里尔字符 (KOI8-R) |
| korean |
949 |
朝鲜语 |
| ks-c-5601 |
949 |
朝鲜语 |
| ks-c-5601-1987 |
949 |
朝鲜语 |
| ks_c_5601 |
949 |
朝鲜语 |
| ks_c_5601-1987 |
949 |
朝鲜语 |
| ks_c_5601-1989 |
949 |
朝鲜语 |
| ksc-5601 |
949 |
朝鲜语 |
| ksc5601 |
949 |
朝鲜语 |
| ksc_5601 |
949 |
朝鲜语 |
| l2 |
28592 |
中欧字符 (ISO) |
| latin1 |
1252 |
西文 |
| latin2 |
28592 |
中欧字符 (ISO) |
| ms_kanji |
932 |
Shift-JIS |
| shift-jis |
932 |
Shift-JIS |
| shift_jis |
932 |
Shift-JIS |
| us |
1252 |
西文 |
| us-ascii |
1252 |
西文 |
| windows-1250 |
1250 |
中欧字符 (Windows) |
| windows-1251 |
1251 |
西里尔字符 (Windows) |
| windows-1252 |
1252 |
西文 |
| windows-1253 |
1253 |
希腊字符 (Windows) |
| windows-1254 |
1254 |
土耳其字符 (Windows) |
| windows-1255 |
1255 |
希伯来语 |
| windows-1256 |
1256 |
阿拉伯语 |
| windows-1257 |
1257 |
波罗的海字符 (Windows) |
| windows-1258 |
1258 |
越南语 |
| windows-874 |
874 |
泰语 |
| x-cp1250 |
1250 |
中欧字符 (Windows) |
| x-cp1251 |
1251 |
西里尔字符 (Windows) |
| x-euc |
CODE_JPN_EUC |
日语 (EUC) |
| x-euc-jp |
CODE_JPN_EUC |
日语 (EUC) |
| x-sjis |
932 |
Shift-JIS |
| x-x-big5 |
950 |
繁体中文 (BIG5) |
注意,对于 CODE_JPN_EUC and CODE_JPN_JIS,字符被转换为代码页 932。