ASCII (American Standard Code for Information Interchange) 一种单字节的编码
MBCS (Multi-Byte Character Set) 多字节编码的统称 。DBCS(Double-Byte Character Set)双字节。
微软中编码ANSI就是MBCS
Unicode
Unicode标准
UCS (Unicode Character Set) 仅仅是字符对应码位的一张表
UCS-2 使用两个字节表示一个字符
UCS-4 使用4个字节表示一个字符
UTF(UCS Transformation Format) 定义字符具体如何传输和储存
UTF-16 两个字节 直接使用UCS的码位来保存
UTF-16-BE
UTF-16-LE
UTF-8 可变长的
BOM(Byte Order Mark) :UTF引入了BOM来表示自身编码
BOM_UTF8 ‘\xef\xbb\xbf’
BOM_UTF16_LE ‘\xff\xfe’
BOM_UTF16_BE ‘\xfe\xff’
如果一开始读入的几个字节是其中之一,则代表接下来要读取的文字使用的编码是相应的编码
绝大多数编辑器在没有BOM时都是以UTF-8作为默认编码读取