Python 抓取网页学习系列之一（网页编码格式）-qxhgd-ChinaUnix博客

嵌入式Linux点滴

首页　| 　博文目录　| 　关于我

qxhgd

博客访问： 999680
博文数量： 403
博客积分： 27
博客等级：民兵
技术积分： 165
用户组：普通用户
注册时间： 2011-12-25 22:20

文章分类

全部博文（403）

私人（0）
内核（21）
Android（0）
Java（2）
用户态编程（48）
Linux驱动（33）
Linux网络（42）
脚本语言（48）
乱（91）
面试笔试题（8）
Linux嵌入式（28）
Linux操作（9）
未分配的博文（73）

文章存档

2016年（3）

2015年（16）

2014年（163）

2013年（222）

我的朋友

相关博文

Python 抓取网页学习系列之一（网页编码格式）

分类： Python/Ruby

2014-07-07 17:00:29

原文地址：Python 抓取网页学习系列之一（网页编码格式）作者：dsy851009

我要从小白做起。
第一步：你需要知道你所抓取的网页编码格式，方法：右键查看网页编码，ctrl +F ，搜索：charset
会看到：gbk" />，OK确定是gbk编码格式了；
为什么会提到编码，这里大概讲讲原理：
    我们看到的所有字符，在计算机里面都是用01010101二进制编码，然后你要想在屏幕上看到ABCD，计算机需要指定某个特定的二进制串来对应ABCD，比如A是011，0100是B等，每个字母都代表一个独有的二进制串，起初计算机是美国人发明了，他们只考虑了0-9a-zA-Z以及一些简单符号，这些符号等用一个字节（8位）的二进制串就能代表全了，这就是所谓的ASCII编码，然而一个字节有2的8次方大小的容量，随着科技的发展，计算机遍及了世界，ASCII编码已经满足不了，所以后来中国、印度等其他国家自己制定了一套编码规则，才诞生的GBK等等一系列的编码，但是还不够统一，不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码，于是有人发明了一种万能的编码，unicode，一次性将全世界各种语言编码情况都包含进来了。
    ASCII编码是1个字节，Unicode编码是2个字节；但是问题出来了，乱码是没了，但是如果你处理的文本中包含有大量的英文字符，用unicode编码要多占一半的空间，所以本着节约精神，UTF-8编码应运而生，UTF-8可变长编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间；所以我们可以这样理解：gbk和utf-8等编码格式就是unicode编码的子集，对其他任意格式的字符串进行解码操作都是让他们成为unicode编码,然后能随便你指定编码类型了，将它转了gbk也行，utf8也行。
    而这里，为什么那么多人的电脑可能打印出来的中文不同呢，例如print '中国'，有些人是直接展示编码，有些人是直接展示中文，这是跟他当时环境息息相关的，比如sublime默认的编码格式是utf-8，cmd默认是gbk编码等等，下面会讲到原因；
继续开始讲网页抓取，要查看编码格式，发现是gbk格式的，抓取时候，你的python系统是不认识，你的sublime系统也是不认识的，这里就需要把gbk格式解码成系统认识的unicode编码，解码方式：a.decode('gbk')，他的意思是对a这个字符串根据gbk的形式进行解码为unicode，注意这里是如果你打印出来，不一定就是你想要的中文，还需要指定编码格式，a.encode('gbk')的意思是对a这个字符串gbk编码，上面提到这个a字符串必须是unicode编码前提下才能encode；encode后就会按照你想要的编码格式输出了。如果你用cmd调试，可以不用加上encode，因为cmd默认的编码格式是gbk了，但你用sublime就不一定了，所以跟系统环境关系很大的。
    这里通俗的可以这样理解：

你在处理包含中文或者其他什么编码的字符串的时候，用一个铁则，首先将它解码成unicode，然后对解码后的unicode字符串进行操作；
下面给个例子：

点击(此处)折叠或打开

#-*-coding:utf-8-*-
import urllib
import re
def getchapids(url_m):
html = urllib.urlopen(url_m).read()
details = html.decode("gbk").encode("utf-8")
reg = r'
'

ids = re.findall(reg,details)

这个测试Url是：，下面的正则可以不用看。看decode和encode那行。然后你输出details就是有中文正常显示；
再一个例子：

点击(此处)折叠或打开

#-*-coding:utf-8-*-
import urllib
import re
def getchapids(url_m):
html = urllib.urlopen(url_m).read()
details = html.decode("gbk")
with open("text.txt","w")as f:
f.write(details.encode("utf-8"))

如果想写入文本也是中文，就需要在写入时候encode，不然写进去的是decode后的unicode编码格式文本；

先写到这里，后面还会写网页抓取的其他内容，如有不正之处请指正；晚安好梦！

阅读(1384) | 评论(0) | 转发(0) |

上一篇：Python 包管理工具Pip 和虚拟环境：Virtualenv

下一篇：tinynet (V1.0.0) 一个轻量级的网络库（测试报告）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6