Chinaunix首页 | 论坛 | 博客
  • 博客访问: 174738
  • 博文数量: 49
  • 博客积分: 1093
  • 博客等级: 少尉
  • 技术积分: 525
  • 用 户 组: 普通用户
  • 注册时间: 2012-02-21 14:31
文章分类

全部博文(49)

文章存档

2012年(49)

我的朋友

分类: WINDOWS

2012-02-21 15:12:02

1、去重

  如果文本中的数据是一行一行的,有重复的内容,去重的方法是:文件——排序——高级排序/选项,选中“删除重复”。

  2、查找后乱码

   将文件另存为“UTF-16”格式的文本。代码页要设置成:

   高级——设置代码页/本地,“系统中已安装的代码页”,选择“936(ANSI/OEM-简体中文GBK)”;

  “系统已安装的地区”选择"中文(中国)中国人们共和国"。

  3、查找任意汉字

  选择Unix风格的正则表达式,查找 “[^一-龥]”。代码页设置如上。

  4、使用正则表达式,去除空行、行尾空格

   UltraEdit有两种传统形式的正则表达式:UltraEdit风格、Unix风格。设置在:高级——配置——搜索——正则表达式引擎。

  UltraEdit风格正则表达式:

  去除空行:    %[ ^t]++^p  替换为 空白(就是什么也不输入)

  去除行尾空格:   [ ^t]+$     替换为 空白

  Unix风格正则表达式:

  去除空行:    ^[   ]*      替换为 空白

  去除行尾空格:   [   ]+$     替换为 空白

  5、在UltraEdit风格正则表达式中,有个星号(*),功能是匹配任何除换行符外所出现的任意数量的字符。但在Unix形式正则表达式

  中却没有相应的符号,可以用 .* 来代替。

  . 匹配任何除换行符之外的单个字符。不匹配重复的换行符。
 

  *匹配前面的字符 0 次或多次。
阅读(1147) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~