1、安装beautifulsoup
pip Install beautifulsoup4
pip install lmxl (可能会失败,在网站直接下载whl 包安装 ~gohlke/pythonlibs/#lxml 下载
)
pip install html5lib
-
#coding:utf-8
-
-
from bs4 import BeautifulSoup
-
import urllib2
-
import re
-
-
HomePage=""
-
'''
-
获取网站的菜单列表地址
-
'''
-
def getMenuList():
-
menulist={}
-
webdata=urllib2.urlopen(HomePage).read()
-
soup=BeautifulSoup(webdata,'lxml')
-
menu=soup.find_all(id='menu')
-
# print urls
-
for m in menu:
-
url=m.find_all('a')
-
for u in url:
-
href=u.get('href')
-
title=u.get_text()
-
if not re.match(r'http:', href):
-
href=HomePage+href
-
print title,href
-
menulist[title]=href
-
return menulist
-
-
-
if __name__=="__main__":
-
menu=getMenuList()
-
# print menu
-
url=menu.get(u'福利片')
-
print url
运行结果:
首页
电影 m/1.html
电视剧 /m/9.html
综艺片 /m/15.html
福利片 /m/16.html
伦理片
图片 /new/n/19.html
小说
/m/16.html
通过浏览网站源码,通过表征字段过滤出自己想要的数据,简单几行代码即可完成,相当简便,进一步学习。
阅读(1130) | 评论(0) | 转发(0) |