python爬虫笔记（1）-sqsowen-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

首页　| 　博文目录　| 　关于我

博客访问： 19889
博文数量： 3
博客积分： 258
博客等级：二等列兵
技术积分： 40
用户组：普通用户
注册时间： 2007-11-06 17:17

文章分类

全部博文（3）

python（2）
未分配的博文（1）

文章存档

2014年（2）

2011年（1）

我的朋友

最近访客

推荐博文

相关博文

python爬虫笔记（1）

分类： Python/Ruby

2014-10-28 10:42:08

出于想投资股票的想法，想获取些投资数据，同时练习下python，于是走上了程序猿的道路。

点击(此处)折叠或打开

# encoding:utf-8
import sys
import re
from urllib2 import Request, urlopen, URLError, HTTPError
def get_packet(url):
packet = urlopen(url)
content = packet.read()
return content.decode('gb2312')
def get_data(packet):
xiangmu = '~'
tmp = re.findall(r'(.*)',packet)
tmp2 = re.findall('(.*)',packet)
if tmp is not None:
xiangmu = tmp
items = []
for items in xiangmu:
print items
##print items.encode('utf-16')
if tmp2 is not None :
shuju = tmp2
items2 = []
for items2 in shuju:
print items2
print tmp.encode('gb2312')
if __name__=='__main__':
url = ''
packet = get_packet(url)
if packet =='~':
sys.exit(0)
get_data(packet)

首先获取网页源文件get_packet，然后用正则表达式把想要的字符扣出来。

点击(此处)折叠或打开

(r'(.*)'

(.*)就是扣出来的文字，然后打印输出。re.findall是查找全部匹配的结果，然后返回一个列表。

阅读(2580) | 评论(0) | 转发(0) |

0

上一篇：博客已升级，请注意变更地址

下一篇：python爬虫笔记（2）

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们