使用webmagic搭建一个简单的爬虫

首页 > 代码库 > 使用webmagic搭建一个简单的爬虫

使用webmagic搭建一个简单的爬虫

2024-09-13 10:25:48 215人阅读

刚刚接触爬虫，听说webmagic很不错，于是就了解了一下。

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

这句话说的真的一点都不假，像我这样什么都不懂的人直接下载部署，看了看可以调用的方法，马上就写出了第一个爬虫小程序。

以下是我学习的过程：

首先需要下载jar：http://webmagic.io/download.html

部署好后就建一个class继承PageProcessor接口，重写process()方法，即可完成一个爬虫。

是不是很简单？

先上代码，再讲解吧。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class MyProcessor implements PageProcessor {
	// 抓取网站的相关配置，包括编码、抓取间隔、重试次数等
	private Site site = Site.me().setRetryTimes(3).setSleepTime(100);
    private static int count =0;
	
	@Override
	public Site getSite() {
		return site;
	}

	@Override
	public void process(Page page) {
        //判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式
		if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
			//加入满足条件的链接
			page.addTargetRequests(
					page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class=‘post_item_body‘]/h3/a/@href").all());
		}else{                              
			//获取页面需要的内容
			System.out.println("抓取的内容："+
					page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
					);
			count ++;
		}
	}

	public static void main(String[] args) {
		long startTime, endTime;
		System.out.println("开始爬取...");
        startTime = System.currentTimeMillis();
		Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
		endTime = System.currentTimeMillis();
		System.out.println("爬取结束，耗时约" + ((endTime - startTime) / 1000) + "秒，抓取了"+count+"条记录");
	}

}

由于刚开始学，技术有限，所以简单地爬一下这些文章的作者。

技术分享