Chow's Notes

术语

ASCII (American Standard Code for Information Interchange)  一种单字节的编码

MBCS (Multi-Byte Character Set) 多字节编码的统称 。DBCS(Double-Byte Character Set)双字节。

微软中编码ANSI就是MBCS

Unicode

Unicode标准

UCS (Unicode Character Set) 仅仅是字符对应码位的一张表

UCS-2 使用两个字节表示一个字符

UCS-4 使用4个字节表示一个字符

UTF(UCS Transformation Format) 定义字符具体如何传输和储存

UTF-16 两个字节 直接使用UCS的码位来保存

UTF-16-BE

UTF-16-LE

UTF-8 可变长的

BOM(Byte Order Mark) :UTF引入了BOM来表示自身编码

BOM_UTF8 ‘\xef\xbb\xbf’ 
BOM_UTF16_LE ‘\xff\xfe’ 
BOM_UTF16_BE ‘\xfe\xff’

如果一开始读入的几个字节是其中之一,则代表接下来要读取的文字使用的编码是相应的编码

绝大多数编辑器在没有BOM时都是以UTF-8作为默认编码读取