Chinaunix首页 | 论坛 | 博客
  • 博客访问: 54463
  • 博文数量: 18
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 145
  • 用 户 组: 普通用户
  • 注册时间: 2017-02-03 22:58
文章分类

全部博文(18)

文章存档

2017年(18)

我的朋友

分类: Python/Ruby

2017-02-17 00:17:43

1、安装beautifulsoup
    pip Install beautifulsoup4
   pip install lmxl (可能会失败,在网站直接下载whl 包安装 ~gohlke/pythonlibs/#lxml 下载
)
    pip install html5lib


点击(此处)折叠或打开

  1. #coding:utf-8

  2. from bs4 import BeautifulSoup
  3. import urllib2
  4. import re

  5. HomePage=""
  6. '''
  7.     获取网站的菜单列表地址
  8. '''
  9. def getMenuList():
  10.     menulist={}
  11.     webdata=urllib2.urlopen(HomePage).read()
  12.     soup=BeautifulSoup(webdata,'lxml')
  13.     menu=soup.find_all(id='menu')
  14. # print urls
  15.     for m in menu:
  16.         url=m.find_all('a')
  17.         for u in url:
  18.             href=u.get('href')
  19.             title=u.get_text()
  20.             if not re.match(r'http:', href):
  21.                 href=HomePage+href
  22.             print title,href
  23.             menulist[title]=href
  24.     return menulist


  25. if __name__=="__main__":
  26.     menu=getMenuList()
  27. # print menu
  28.     url=menu.get(u'福利片')
  29.     print url



运行结果:
首页
电影 m/1.html
电视剧 /m/9.html
综艺片 /m/15.html
福利片 /m/16.html
伦理片
图片 /new/n/19.html
小说

/m/16.html



    通过浏览网站源码,通过表征字段过滤出自己想要的数据,简单几行代码即可完成,相当简便,进一步学习。



阅读(1099) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~