-
中国的简体和繁体汉字
-
字符数量都超级大
-
彼此还认对方为乱码
-
如果有一种编码所有的字符都能编进去就好了
-
中日韩(CJK)
-
欧洲拼音
-
梵文
-
阿拉伯文
-
卢恩字符
-
等等等都包括进去
-
计算机中只有 0 和 1
-
并且是存储在字节里的
-
原来只能表示和处理数字
-
字符无法处理
-
但是 各国家和地区
-
都有 自己的文字
-
这一领域 没有 统一的标准
-
所以每个国家和地区
-
都制定自己的编码标准
-
想要同时显示 法语字符和西里尔字符 是不可能的
-
同样字节状态 在不同编码格式里 代表不同的字符
-
都认为对方是乱码
-
彼此不兼容
-
无法解决的问题背后 可能是机会
-
1980 年代
-
Xerox(施乐公司) 在 开始尝试一种编码
-
能融合多语言
-
Xerox 字符集包括
-
拉丁
-
阿拉伯
-
希伯来
-
希腊
-
西里尔
-
中日韩字符
-
这个字符集 1988 年进化为 unicode
-
uni的意思是一
-
uni 来自于
-
unique
-
unified
-
universal
-
unicorn
-
university
-
uniform
-
unit
-
union
-
universe
-
绕着一个东西转的
-
从一转化而来的
-
宇宙一词 中文以前就有
-
上下四方曰宇
-
古往今来曰宙
-
这个词头计算机领域也有很多很牛的单词
-
unit、unix、unity、unicode
-
这个版本叫做 unicode88
-
是 16 位的 unicode
-
1989 年
-
Unicode 这个工作组来了一些从大厂来的人
-
微软和 sun 都来了
-
1991/1/3 日
-
Unicode 委员会在加州成立
-
1991 年 8 月
-
unicode {BANNED}中国第一卷发布
-
1992 年 6 月
-
第 2 卷发布
-
这里面包含了汉语字符
-
unicode 委员会 形成
-
Adobe, Apple, Facebook, Google, IBM, Microsoft, Netflix 和 SAP SE 等公司的工程师加入
-
这其实也 标识出unicode的 编码排序规则
-
以书写系统为单位
-
分类和收录
-
不过希腊字符之前只有大写字母
-
小写字母怎么来的呢?
-
unicode 确实给埃及文字排了序号
-
但是序号很大
-
而且目前终端没有字型支持
-
同为 拼音文字的不同书写系统
-
可能会用到 长得一样的字符
-
会是一个序号吗?
-
英文字母、拉丁字母、西里尔文字母
-
都源自希腊文字母 Omicron
-
不同的书写系统
-
可能会长相一样的字母
-
但对应着不同的序号
-
虽然字形一模一样
-
但是属于三个书写系统
-
希腊文字母
-
英文字母
-
西里尔字母
-
每个版本都会有些变化
-
整个编码区域分成若干个 blocks
-
新版本对于这些 blocks 里面的字符有所增加
-
集装箱 标准化一旦开始
-
就会 反过来 约束火车轮船飞机
-
你要想 加入这个交流的行列
-
必须先了解相应的接口
-
从遵守现有的规则开始
-
新编码unicode的时代来了
-
他会把一切字符吸收进去
-
两仪生四象
-
?(太陽,U+268C)、?(少陰,U+268D)、?(少陽,U+268E)、?(太陰,U+268F)
-
如果把
-
? 陽 (U+268A)当做1
-
? 陰 (U+268B)当做0
-
顺序是逆序(递减)
-
从外而内
-
天
-
泽
-
水
-
雷
-
风
-
火
-
山
-
地
-
当然关于排序各有各的排法
-
中国是中日韩
-
日本是日中韩
-
韩国是韩中日
-
unicode中的文字将
-
中国汉字
-
朝鲜汉字
-
日本汉字
-
综合起来
-
这些都是异体字
-
或者叫做通假字
-
在计算机里是如何的呢?
-
在0x4e00到0x9fff这个范围内
-
基本一个汉字就只有一种写法
-
字符集
-
从博多码
-
到 ascii
-
再到 8859
-
各自割据
-
如何把世界上各种字符统进行编码
-
unicode顺势而生不断进化
-
不过字符总量超过了65536
-
每个汉字都有位置
阅读(245) | 评论(0) | 转发(0) |