Chinaunix首页 | 论坛 | 博客
  • 博客访问: 7263246
  • 博文数量: 512
  • 博客积分: 12019
  • 博客等级: 上将
  • 技术积分: 6857
  • 用 户 组: 普通用户
  • 注册时间: 2005-08-01 16:46
文章分类

全部博文(512)

文章存档

2024年(2)

2022年(2)

2021年(6)

2020年(59)

2019年(4)

2018年(10)

2017年(5)

2016年(2)

2015年(4)

2014年(4)

2013年(16)

2012年(47)

2011年(65)

2010年(46)

2009年(34)

2008年(52)

2007年(52)

2006年(80)

2005年(22)

分类: Python/Ruby

2020-05-11 17:17:01

chardet.detect经常提示是gb2312 。另外网页charset="gb2312"
但实际上是 gbk或者是  GB18030 。

txt =c.content.decode("gbk")
txt =c.content.decode("GB18030") 


例子
c =  requests.get(url,stream=True)
print chardet.detect(c.content) 
txt =c.content.decode("GB18030")    
txt = txt.encode("utf-8")
soup = BeautifulSoup(txt, 'lxml',from_encoding='utf-8')

阅读(2451) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~