专注 K8S研究
发布时间:2013-07-06 01:30:46
用urllib2 和BeautifulSoup抓取分析网页以抓取豆瓣电影Top250的排行信息为例,本以为还要做个爬虫,后来发现那排行有文本列表显示的选项,直接把Top250个电影信息在一个页面显示出来了,所以只要用urllib2下载页面,再用BeautifulSoup分析就行了。 Beautiful Soup第三方库的下载地.........【阅读全文】
发布时间:2013-07-06 01:10:44
上一篇http://www.2cto.com/kf/201204/125926.html 用BS分析好界面元素之后,将我们需要的信息放到一个info的list里面给返回来出来,方便期间,info包括这些东西## """ return 12 infos## 1.title 2.limit des 3.proble.........【阅读全文】
发布时间:2013-07-06 01:07:56
终于搞完了 记录一下 我的任务是hdoj和toj这两个,事实上也就一个。做hdoj用了4天的样子,toj一上午就ok了、、、 所以撇开toj,直接用hdoj的东西来说。也就是肿么把oj上这些字儿啊图片啊神马的抓下来存到数据库的。当然,为了验证是否正确,django这个方便的东西是不能少的。 btw:原来django的静态文件是.........【阅读全文】
发布时间:2013-07-06 00:51:35
urllib2是Python的一个获取URLs的组件。他以urlopen函数的形式提供了一个非常简单的接口,具有利用不同协议获取URLs的能力,同样提供了一个比较复杂的接口来处理一般情况。 urllib2支持获取不同格式的URLs例如:ftp、Gopher等,并利用它们相关网络协议进行获取。 .........【阅读全文】
发布时间:2013-07-06 00:50:39
1 Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy,而不受环境变量的影响,可以使用下面的方式:import urllib2enable_proxy = Trueproxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}).........【阅读全文】