手摸手学会使用webmagic爬虫框架-专注的阿熊-ChinaUnix博客

专注的阿熊的ChinaUnix博客

首页　| 　博文目录　| 　关于我

专注的阿熊

博客访问： 3657294
博文数量： 365
博客积分： 0
博客等级：民兵
技术积分： 2522
用户组：普通用户
注册时间： 2019-10-28 13:40

文章分类

全部博文（365）

未分配的博文（365）

文章存档

2023年（8）

2022年（130）

2021年（155）

2020年（50）

2019年（22）

我的朋友

相关博文

手摸手学会使用webmagic爬虫框架

分类： Python/Ruby

2021-11-23 17:19:36

/**

* jsoup测试案例

* @author tuxuchen

* @date 2021/11/18 18:17

public class JsoupTest {

public static void main(String[] args) {

JsoupTest test = new JsoupTest();

test.findSearch("圣墟");

}

/**

* 搜索功能

* @param name

* @return

public void findSearch(String name) {

// 获取搜索页文档树

Document document = getDocument("" + name);

if (Objects.isNull(document)) {

System.out.println("文档树获取失败");

return;

}

// 取出

标签内

Element ul = document.select("#main > div.novelslist2 > ul").get(0);

if (ul.isBlock()) { // 如果获取成功

// 从

标签取出

标签

Elements li = ul.getElementsByTag("li");

// 从1开始遍历外汇跟单gendan5.com为什么从1开始是因为我们不需要第一个li标签第一个li标签内是序号

for (int i = 1; i < li.size(); i++) {

Element e = li.get(i);

// 取出 li 标签内的标签内就是我们需要的内容

Elements a = e.getElementsByTag("a");

String book = "";

// 遍历取出每个标签

for (int r = 0; r < a.size(); r++){

String text = a.get(r).text();

book = book + text + ":";

}

System.out.println(book);

}

/**

* document 是浏览器对象是文档树这跟前端document是一样的

* 从url上获取文档数，为了防止反爬虫，这是一些头字段

* 如果失败，会重试10次

* @param url 爬取地址

* @return document

private Document getDocument(String url) {

// 重试次数

int count = 10;

boolean flag = true;

Document document = null;

while (flag) {

try {

document = Jsoup.connect(url)

.userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36")

.get();

flag = false;

} catch (IOException e) {

if (count-- != 0) {

System.out.println(("网页获取失败，原因：" + e.getMessage()));

System.out.println("开始第" + (10 - count) + "次重试");

} else {

System.out.println("获取文档未知异常:" + e.getMessage());

}

return document;

}

阅读(980) | 评论(0) | 转发(0) |

上一篇：双目三维重建系统(双目标定+立体校正+双目测距+点云显示)Python

下一篇：毕业设计 - 车道线检测(自动驾驶机器视觉)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6