Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4585047
  • 博文数量: 1214
  • 博客积分: 13195
  • 博客等级: 上将
  • 技术积分: 9105
  • 用 户 组: 普通用户
  • 注册时间: 2007-01-19 14:41
个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文(1214)

文章存档

2021年(13)

2020年(49)

2019年(14)

2018年(27)

2017年(69)

2016年(100)

2015年(106)

2014年(240)

2013年(5)

2012年(193)

2011年(155)

2010年(93)

2009年(62)

2008年(51)

2007年(37)

分类: 网络与安全

2012-05-03 16:12:49

文章来源:

  • 编码范围
    1. GBK (GB2312/GB18030)
    x00-xff GBK双字节编码范围
    x20-x7f ASCII
    xa1-xff 中文
    x80-xff 中文

    2. UTF-8 (Unicode)
    u4e00-u9fa5 (中文)
    x3130-x318F (韩文)
    xAC00-xD7A3 (韩文)
    u0800-u4e00 (日文)
    ps: 韩文是大于[u9fa5]的字符

  • 正则例子(使用PHP):
    preg_replace(“/([x80-xff])/”,”",$str);    //GBK中匹配
    preg_replace(“/([u4e00-u9fa5])/”,”",$str);    //UTF8中匹配
  • 另外一些:
    有时候我们也会用到全角英文、特殊符号等
    全角英文的UTF8是: uff21 – uff5a ,是从大写A开始到小写的z。
    utf8中的 uff20是@
    utf8中的 uff01到 uff09是我们美式键盘上shift + 从1到9键上的特殊符号。要注意的是因为@是 uff20,所以 uff02是双引号,同时6的……是两个符号的组合,所以也不存在,正题提前一位(也就是说ff06是&, ff09是))。
    utf8中的全角数字是 uff10 – uff19 ,对应关系自然是 0 – 9 。

阅读(11540) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~