title: 字符编码
date: 2018-10-21 10:56:52
tags:
categories:
- 计算机基础
目录 start
目录 end|2021-03-17 18:06|
ASCII (American Standard Code for Information Interchange) 美国信息交换标准代码 属于单字节内码 并等同于国际标准ISO/IEC 646
注意
- 在标准ASCII中,其最高位(b7)用作奇偶校验位。 Linux上
man ascii
就可以查看完整表- 经过扩充后 ascii 可大于127
ASCII扩展字符
ANSI/ISO8859-1-1987 或称 Latin 1
这个编码就是 ascii 的扩展, 但是只是扩展了一个字节, 然后各个国家的编码又不一致(不同的代码页), 导致了十分混乱 至于简体中文编码GB2312,实际上它是 ANSI 的一个代码页 936
Unicode 是一个囊括了世界上所有字符的字符集,其中每一个字符都对应有唯一的编码值, 但是并不是一个已实现的编码方案, 不能直接使用
其实现有 UTF-8 UTF-16 UTF-32 ... 目前最新版本 11 已经包括 137,439 个字符
问题 直接看, 看不到的字符, 可能带来一些坑
零宽间隔 zero-width space | U+200B |
NO-BREAK SPACE | U+C2A0 |
零宽不折行空格 |
U+FEFF html: 
|
零宽度连字符 (zero-width joiner) | \u200D |
零宽度断字符 (zero-width non-joiner) | \u200C |
左至右符 (left-to-right mark) | \u200E |
右至左符 (right-to-left mark) | \u200F |
UTF: UCS Transformation Format, UCS: Unicode Character Set
它是将Unicode编码规则和计算机的实际编码对应起来的一个规则。现在流行的UTF有2种:UTF-8和UTF-16.
关于 BOM
grep -r $'\xEF\xBB\xBF'
:set nobomb
加上 BOM :set bomb
UTF-8 是一种Unicode的实现方式, 是一种
变长编码方案
(1-6 字节), 在表示中文时是采用三字节 四字节
的方式, 已成为WEB领域事实标准编码占3个字节的:基本等同于GBK,含21000多个汉字 占4个字节的:中日韩超大字符集里面的汉字,有5万多个
注意: 依据 2003年的标准 UTF8 仅使用 1-4 字节长度
依据首字节的最高位表示
每个字符4字节
最早是制定的 GB2312-80
兼容 ASCII
采用的是双字节编码方式, 其中一共编码了6763个常用简体汉字, Big5,是台湾使用的编码标准,编码了台湾使用的繁体汉字,大概有8千多个。
HKSCS
是中国香港使用的编码标准,字体也是繁体,但跟 Big5
有所不同。
后来,由于各方面的原因,国际上又制定了针对中文的统一字符集 GBK
和 GB18030
,其中GBK已经在Windows、Linux等多种操作系统中被实现。
GBK兼容GB2312,并增加了大量不常用汉字,还加入了几乎所有的Big5中的繁体汉字。但是GBK中的繁体汉字和Big5中的几乎不兼容。
GB2312 GBK GB18030 都属于双字节
字符集 (DBCS)
字体编辑用中日韩汉字Unicode编码表
参考: Unicode中文和特殊字符的编码范围
参考: 中文标点符号具体unicode码 汉字 Unicode 编码范围
类别 | 字数 | Unicode 范围 |
---|---|---|
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 74字 | 9FA6-9FEF |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
扩展E | 5762字 | 2B820-2CEA1 |
扩展F | 7473字 | 2CEB0-2EBE0 |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉字 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 43字 | 3105-312F |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。