分类: Python/Ruby
2015-10-28 17:03:52
其次,不会用 Requests 就去看文档,不要乱来。
如果 Requests 检测不到正确的编码,那么你告诉它正确的是什么:
response.encoding = 'gbk' print response.text
原始内容在 response.content 里,bytes,自己想怎么处理就怎么处理。
最后,弄不明白怎么处理编码错误的字符串就仔细想想,或者用 Python 3.x,不要。
以下是 Python 3。Python 2 在那个字符串前加个 u 告诉它是 unicode 也一样。
>>> '°??¨?ù?? 2013 ?????ó?§??????????????'.encode('latin1').decode('gbk') '版权所有 2013 东南大学网络与信息中心'
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,更友好,更易用。
Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。现代、国际化、人性化。
def get_encoding_from_headers(headers):
"""Returns encodings from given HTTP Header Dict.
:param headers: dictionary to extract encoding from.
content_type = headers.get('content-type')
if not content_type:
return None
content_type, params = cgi.parse_header(content_type)
if 'charset' in params:
return params['charset'].strip("'\"")
if 'text' in content_type:
return 'ISO-8859-1'
def get_encodings_from_content(content):
"""Returns encodings from given content string.
:param content: bytestring to extract encodings from.
charset_re = re.compile(r']', flags=re.I)
pragma_re = re.compile(r']', flags=re.I)
xml_re = re.compile(r'^<\?xml.*?encoding=["\']*(.+?)["\'>]')
return (charset_re.findall(content) +
pragma_re.findall(content) +
def apparent_encoding(self):
"""The apparent encoding, provided by the lovely Charade library
(Thanks, Ian!)."""
return chardet.detect(self.content)['encoding']
>>> r = requests.get('')
>>> r.headers['content-type']
>>> r.encoding
>>> r.apparent_encoding
>>> requests.utils.get_encodings_from_content(r.content)
>>> r = requests.get('')
>>> r.headers['content-type']
>>> r.encoding
>>> r.apparent_encoding
>>> requests.utils.get_encodings_from_content(r.content)
通过了解,可以这么用一个monkey patch解决这个问题:
import requests def monkey_patch(): prop = requests.models.Response.content def content(self): _content = prop.fget(self) if self.encoding == 'ISO-8859-1': encodings = requests.utils.get_encodings_from_content(_content) if encodings: self.encoding = encodings[0] else: self.encoding = self.apparent_encoding _content = _content.decode(self.encoding, 'replace').encode('utf8', 'replace') self._content = _content return _content requests.models.Response.content = property(content) monkey_patch()