Chinaunix首页 | 论坛 | 博客

喜欢编程的鱼

首页　| 　博文目录　| 　关于我

博客访问： 2033834
博文数量： 606
博客积分： 9991
博客等级：中将
技术积分： 5725
用户组：普通用户
注册时间： 2008-07-17 19:07

文章分类

全部博文（606）

C-sharp（1）
数据建模（1）

UML（1）
数据挖掘（8）

文本分类（2）
服务器（2）

Apache Http serv（2）
性能调优（3）

JProfiler（3）
网络技术（1）
信息安全（4）
搜索引擎（22）

Apache Lucene Ma（1）

googleapi（3）

nutch（10）

heritrix（1）

lucene（7）
设计模式（13）

J2EE模式（2）

行为模式（4）

结构模式（1）

创建模式（3）
web（88）

FreeMarker（1）

Weblogic（3）

JSF（1）

Ajax（12）

Tomcat（5）

xml（6）

servlet（4）

JSP（19）

css（2）

javascript（30）

html（5）
开发工具（38）

Flex Builder（10）

NetBeans（0）

eclipse（28）
算法设计（6）
操作系统（30）

Linux（24）

windows（2）

Solaris（4）
数据库（65）

Memcached（2）

NoSQL（0）

MS SQL（18）

MySQL（13）

Oracle（32）
软件工程（2）
Java（249）

iBATIS（1）

junit（3）

J2ME（1）

SWT（2）

webservice（17）

quartz（6）

J2EE（11）

J2SE（80）

面试题集（2）

问题集锦（1）

其他（8）

ANT（3）

jboss（1）

hibernate（56）

spring（33）

struts（23）
未分配的博文（73）

文章存档

2011年（10）

2010年（67）

2009年（155）

2008年（386）

我的朋友

最近访客

推荐博文

Heritrix的Extractor中文乱码

分类：

2008-12-03 13:15:49

关于Heritrix的Extractor中文乱码

关键字：Heritrix 中文乱码 GB2312 Extractor

继承从org.archive.crawler.extractor.Extractor的子类，在extract方法中可以从参数CrawlURI中取出要解析的内容。

curi.getHttpRecorder().getReplayCharSequence.toString()

有中文时，不做处理会输出乱码。可以在取到的HttpRecorder后设置编码：

HttpRecorder hr = curi.getHttpRecorder();

if ( hr == null ) {

throw new IOException( "Why is recorder null here?" );

}

hr.setCharacterEncoding( "gb2312" );

cs = hr.getReplayCharSequence();

System.out.println( cs.toString() );

阅读(2414) | 评论(0) | 转发(0) |

0

上一篇：MySQL可视化管理工具

下一篇：java 1.5 和 1.6环境共存的时候发现的错误

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们