jsoup抓取网页内容

首页 > 代码库 > jsoup抓取网页内容

2024-10-20 15:49:02 209人阅读

这两天弄了一下jsoup 感觉蛮好弄的，这里就分享一下

用到的jar包是 jsoup-1.8.1.jar 可以去官网下载，我用的是目前最新的版本，我获取的以下的网址

这是一个新闻网站，内容比较好获取，也更新得快http://www.xinhuanet.com/xhjj.htm

这里需要说明一下，并没有其他用途，只是用来学习 jsoup

接下来看代码

 static String url="http://www.xinhuanet.com/xhjj.htm";    /**     * 获取指定HTML 文档指定的body     * @throws IOException     */    static List<News> list;    public static void main(String[] args) throws Exception {  		BolgBody();	}    public static List<News> BolgBody() throws IOException {    	list =new ArrayList<News>();        // 从 URL 直接加载 HTML 文档        Document doc2 = Jsoup.connect(url).get();//               Elements masthead = doc2.select("div#hideData");        for (Element item : masthead) {      	Elements links = item.select("ul");      	Elements link = item.select("li");      	Elements link1 = item.select("a");      	//时间需要改变，因为一行有两个标题      	Elements link2 = item.select("span");//      	这里只获取三条      	for(int i=0;i<3;i++){      		News news = new News();                    	news.setTitle(link1.get(i).text());        	news.setDate(link2.get(i%2).text());//一条记录有两条标题          	list.add(news);      	}            System.out.println(list.toString());      }		return list;           }

　　以上是获取时间和标题注释有

看效果

技术分享

抓取的时候需要根据网页中的代码来改变

jsoup抓取网页内容

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > jsoup抓取网页内容

jsoup抓取网页内容

看完仍有疑问？有类似问题直接问程序猿