Chinaunix首页 | 论坛 | 博客
  • 博客访问: 530132
  • 博文数量: 71
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 159
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-13 12:37
个人简介

aaaaaaaaa

文章分类

全部博文(71)

文章存档

2013年(71)

我的朋友

发布时间:2013-07-24 12:47:57

一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.官方主页: http://www.scrapy.org/.........【阅读全文】

阅读(415) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:47:51

网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看.........【阅读全文】

阅读(513) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:47:24

......【阅读全文】

阅读(374) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:47:14

用urllib2 和BeautifulSoup抓取分析网页以抓取豆瓣电影Top250的排行信息为例,本以为还要做个爬虫,后来发现那排行有文本列表显示的选项,直接把Top250个电影信息在一个页面显示出来了,所以只要用urllib2下载页面,再用BeautifulSoup分析就行了。 Beautiful Soup第三方库的下载地.........【阅读全文】

阅读(1609) | 评论(0) | 转发(0)

发布时间:2013-07-24 12:46:29

......【阅读全文】

阅读(486) | 评论(0) | 转发(0)
给主人留下些什么吧!~~
留言热议
请登录后留言。

登录 注册