Python写爬虫——抓取网页并解析HTML

嵌入式Linux点滴

首页　| 　博文目录　| 　关于我

qxhgd

博客访问： 994518
博文数量： 403
博客积分： 27
博客等级：民兵
技术积分： 165
用户组：普通用户
注册时间： 2011-12-25 22:20

文章分类

全部博文（403）

私人（0）
内核（21）
Android（0）
Java（2）
用户态编程（48）
Linux驱动（33）
Linux网络（42）
脚本语言（48）
乱（91）
面试笔试题（8）
Linux嵌入式（28）
Linux操作（9）
未分配的博文（73）

文章存档

2016年（3）

2015年（16）

2014年（163）

2013年（222）

我的朋友

最近访客

推荐博文

Python写爬虫——抓取网页并解析HTML

发布时间：2014-05-27 17:58:29

文章来源：CUHK 上学期有门课叫做 Semantic Web，课程 project 是要搜集整个系里面的教授信息，输入到一个系统里，能够完成诸如“如果选了A教授的课，因时间冲突，B教授的哪些课不能选”、“和A教授实验室相邻的实验室都是哪些教授的”这一类的查询。这就是所谓的“语义网”了啊。。。然而最坑爹的是，所有这些信息，老.........【阅读全文】

阅读(1677) | 评论(0) | 转发(0)

理解Tornado Web服务器epoll（高性能服务器）

发布时间：2014-05-27 11:02:33

由Tornado Web服务器epoll的使用，本文主要对epoll作简单介绍，并给出示例转载自：http://blog.csdn.net/piaojun_pj/article/details/6103709epoll的优点：1.支持一个进程打开大数目的socket描述符(FD) select 最不能忍受的是一个进程所打开的FD是有一定限制的.........【阅读全文】

阅读(1447) | 评论(0) | 转发(0)

webpy框架

发布时间：2014-05-27 11:01:51

django和webpy都是python的web开发框架。Django的主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架，Django有许多功能强大的第三方插件，你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展性。它还强调快速开发和DR.........【阅读全文】

阅读(869) | 评论(0) | 转发(0)

mechanize模拟浏览器行为使用总结

发布时间：2014-05-27 11:00:10

mechanize是对urllib2的部分功能的替换，能够更好的模拟浏览器行为，在web访问控制方面做得更全面。结合beautifulsoup和re模块，可以有效的解析web页面，我比较喜欢这种方法。下面主要总结了使用mechanize模拟浏览器的行为和几个例子（谷歌搜索，百度搜索和人人网登录等）1.初.........【阅读全文】

阅读(782) | 评论(0) | 转发(0)

BeautifulSoup使用总结

发布时间：2014-05-27 10:55:32

BeautifulSoup是Python的一个第三方库，可用于帮助解析html/XML等内容，以抓取特定的网页信息。目前最新的是v4版本，这里主要总结一下我使用的v3版本解析html的一些常用方法。1.初始化导入模块#!/usr/bin/env pythonfrom BeautifulSoup import BeautifulSoup .........【阅读全文】

阅读(745) | 评论(0) | 转发(0)

给主人留下些什么吧！~~

留言热议

请登录后留言。

登录注册

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6