Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1683823
  • 博文数量: 297
  • 博客积分: 2907
  • 博客等级: 中校
  • 技术积分: 1540
  • 用 户 组: 普通用户
  • 注册时间: 2010-03-12 09:16
文章分类

全部博文(297)

文章存档

2018年(8)

2016年(2)

2015年(27)

2014年(33)

2013年(210)

2011年(3)

2010年(14)

发布时间:2013-09-01 23:58:42

python爬虫的三个版本: 1. 基于urllib, urllib2基于http请求响应的封装。有局限性,因为不能处理动态的脚本如js,一些操作无法实现。2. 内嵌webbrowser如pyqt的webkit,pamie, spynner(基于webkit)这种内嵌的方式类似于com调用,支持所有浏览器的操作,兼容性好,但不如urllib快捷。.........【阅读全文】

阅读(2484) | 评论(0) | 转发(1)

发布时间:2013-09-01 23:46:31

花瓣网的架构:LVS + nginx reverse proxy + NodeJS cluster,使用MySQL、Redis作为主要的数据存储方案。是国内类pinterest中图片质量比较高的网站,因为他家早前开的又拍云,没理由做不好图片存储。   昨天写了个粗糙的花瓣的抓取程序 网络上的人都抱怨这个有难度 其实是你们没静心下来分析譬如说.........【阅读全文】

阅读(4023) | 评论(3) | 转发(0)

发布时间:2013-09-01 23:45:23

搜索巨头里面从来没有bing  最近看到一篇文章 说bing背景图还不错 的确还不赖 然后想用python练个手抓一抓看源码 有g_img={url: 后面的url就是图片地址  点击右下角的上一页下一页可以换图片FF中的FireBug没找出具体路径  那就HttpFox来抓个包吧 有一串json加载进了一张jpeg和相关信息http:.........【阅读全文】

阅读(2984) | 评论(0) | 转发(0)

发布时间:2013-09-01 23:43:03

title:python 爬虫抓取心得分享0x1.urllib.quote('要编码的字符串')如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用:urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read(.........【阅读全文】

阅读(69632) | 评论(0) | 转发(1)

发布时间:2013-08-21 15:01:12

想从淘宝上抓点数据,做分析,看了下别人写的,不难,遂试着写了个(APK爬虫-门钥匙,虾米爬虫-门钥匙)
对代码进行了重构,是逻辑跟清晰,抓取网页都要调用aragog(url, anaylze_func)函数,其中url为网址,analyze_func为解析页面方法
放弃MySQL数据库,使用csv作为存储
加入错误日志,通过try/except提高程序的健壮性
启动程序时加入日志和数据路径变量,以及关键词
eg:python main.py /home/user/aragog 核桃 木耳 香菇......【阅读全文】

阅读(15985) | 评论(4) | 转发(0)
给主人留下些什么吧!~~

urgel_babay2016-05-11 11:05

转载了!仅作学习之用,谢谢

回复  |  举报

lkyuang2014-09-18 10:48

Echo "/usr/local/agent/sbin/zabbix_agentd -c /usr/local/agent/etc/zabbix_agentd.conf" >>/etc/tc.local


这个地方的开头 "Echo" 首字母不应该大写,  末尾的“tc.local”是不是打错了啊  “rc.local”

回复  |  举报

wgyzhechao2011-04-22 09:17

baby

回复  |  举报

蓝色虫2011-03-26 10:04

踩踩

回复  |  举报

iCymbidium2011-01-07 10:39

chinaboywg: 5年后CISSP早不值钱了
它要五年工作经验。。。那就看5年后啥好就考啥!O(∩_∩)O

回复  |  举报
留言热议
请登录后留言。

登录 注册