按类别查询搜索结果
关于关键词 的检测结果,共 967
GY12345691 | 2013-07-26 20:23:48 | 阅读(1410) | 评论(0)
MingZznet | 2013-07-24 12:56:08 | 阅读(400) | 评论(0)
MingZznet | 2013-07-24 12:55:27 | 阅读(530) | 评论(0)
最近在用python做一些网页分析方面的事情,很久没更新博客了,今天补上。下面的代码用到了1 python 多线程2 网页分析库:beautifulsoup ,这个库比之前分享的python SGMLParser 网页分析库要强大很多,大家有兴趣可以去了解下。    运行上面的程序需要安装beautifulsoup...【阅读全文】
【Python/Ruby】 判断页编码
MingZznet | 2013-07-24 12:54:54 | 阅读(340) | 评论(0)
这段时间在用python处理网页抓取这块,互联网很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8,等待。我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码。比如beautiful soup内部的编码就是unicode的编码。下面介绍两种python 判断网页编码的方法:1 i...【阅读全文】
MingZznet | 2013-07-24 12:53:31 | 阅读(490) | 评论(0)
我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法。首页我们需要安装chardet模块,这个可以通过easy_install 或者pip来安装。安装完以后我们在控制台上导入模块,如果正常就可以。比如我们遇到的一些ISO-8859-2也是可以通过下面的方...【阅读全文】
【Python/Ruby】 Scrapy装介绍
MingZznet | 2013-07-24 12:47:57 | 阅读(410) | 评论(0)
一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.官方主页: http://www.scrapy.org/...【阅读全文】
MingZznet | 2013-07-24 12:47:51 | 阅读(510) | 评论(0)
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。我们看...【阅读全文】
MingZznet | 2013-07-24 12:44:51 | 阅读(580) | 评论(0)
前一段时间写的小东西,一直没工夫把他系统写出来,今天眼睛疼,就写写吧~~(原来博主不蛋疼时也会更新博客的哈~)python抓取网页基础python自己带有很多网络应用相关的模块,如:ftplib用于FTP相关操作,smtplib和poplib用于收发电子邮件等等,利用这些 模块自己写一个FTP软件或是邮件客户端类软件完全是可能的,...【阅读全文】
MingZznet | 2013-07-24 12:43:31 | 阅读(410) | 评论(0)
#coding:utf-8#import pyqueryimport urllib2 import re from bs4 import BeautifulSoup"""分析结构                            ...【阅读全文】
MingZznet | 2013-07-24 12:41:59 | 阅读(440) | 评论(0)
首先推荐一个网站:中医世家,这个网站上有很多关于中医的资料,光是提供的中医书籍就有317Mb,全都是CHM格式,资料非常全面。  正因为这个网站有这么多的好东西,但是我又懒得一本书一本书的下载,所以,我就……用Python直接解析了几个书籍下载页面的地址,把所有的书籍的下载地址都弄到手,顺便还下载了,呵呵呵,...【阅读全文】
【Python/Ruby】 python构造
MingZznet | 2013-07-24 12:41:05 | 阅读(430) | 评论(0)
点击(此处)折叠或打开#!/usr/bin/pythonfrom struct import *from socket import *from sys import *class DBPkgHead:    def __init__(self):  &...【阅读全文】
MingZznet | 2013-07-24 12:29:37 | 阅读(380) | 评论(0)
开源python网络爬虫框架Scrapy介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待...【阅读全文】
qxhgd | 2013-07-23 14:32:19 | 阅读(990) | 评论(0)
开源python网络爬虫框架Scrapy介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待...【阅读全文】
Larpenteur | 2013-07-22 23:05:39 | 阅读(580) | 评论(0)
一个数组的全排列,就是罗列出数组所有的排列可能,比如,1,2,3
?有:
?1,2,3
?1,3,2
?2,1,3
?2,3,1
?3,1,2
?3,2,1【阅读全文】
shuang_lin_lei | 2013-07-22 14:03:57 | 阅读(5120) | 评论(0)
一个数组的全排列,就是罗列出数组所有的排列可能,比如,1,2,3
?有:
?1,2,3
?1,3,2
?2,1,3
?2,3,1
?3,1,2
?3,2,1【阅读全文】
【Python/Ruby】 python构造
yyguzhou | 2013-07-18 10:29:55 | 阅读(2070) | 评论(0)
点击(此处)折叠或打开#!/usr/bin/pythonfrom struct import *from socket import *from sys import *class DBPkgHead:    def __init__(self):  &...【阅读全文】
chinaboywg | 2013-07-07 19:35:10 | 阅读(3290) | 评论(0)
#coding:utf-8#import pyqueryimport urllib2 import re from bs4 import BeautifulSoup"""分析结构                            ...【阅读全文】
【Python/Ruby】 Html标签大
chinaboywg | 2013-07-05 18:22:33 | 阅读(7130) | 评论(0)
Html标签大全<a></a> 超文本链接<a href="URL"></a> 创建超文本链接 ,其中的url为链接目标地址<a href="mailtEMAIL"></a> 创建自动发送电子邮件的链接<a name="name"></a> 创建位于文档内部的书签<a href="#name"></a> 创建指向位于文档内部书签的链接其他链接标记注解:...【阅读全文】
chinaboywg | 2013-07-05 02:15:05 | 阅读(670) | 评论(0)
来源:http://www.cnblogs.com/itech/archive/2011/02/13/1953268.html一 setuptools 和easy_install setuptools:setuptools 是一组由PEAK(Python Enterprise Application Kit)开发的 Python 的 distutils 工具的增强工具,可以让程序员更方便的创建和发布 Python的egg 包,特别是那些对其它包具有依赖...【阅读全文】
chinaboywg | 2013-07-05 02:06:44 | 阅读(630) | 评论(0)
python paramiko pycrypto windows【阅读全文】