首页 > 代码库 > jsoup抓取网页内容
jsoup抓取网页内容
这两天弄了一下jsoup 感觉蛮好弄的,这里就分享一下
用到的jar包是 jsoup-1.8.1.jar 可以去官网下载,我用的是目前最新的版本,我获取的以下的网址
这是一个新闻网站,内容比较好获取,也更新得快http://www.xinhuanet.com/xhjj.htm
这里需要说明一下,并没有其他用途,只是用来学习 jsoup
接下来看代码
static String url="http://www.xinhuanet.com/xhjj.htm"; /** * 获取指定HTML 文档指定的body * @throws IOException */ static List<News> list; public static void main(String[] args) throws Exception { BolgBody(); } public static List<News> BolgBody() throws IOException { list =new ArrayList<News>(); // 从 URL 直接加载 HTML 文档 Document doc2 = Jsoup.connect(url).get();// Elements masthead = doc2.select("div#hideData"); for (Element item : masthead) { Elements links = item.select("ul"); Elements link = item.select("li"); Elements link1 = item.select("a"); //时间需要改变,因为一行有两个标题 Elements link2 = item.select("span");// 这里只获取三条 for(int i=0;i<3;i++){ News news = new News(); news.setTitle(link1.get(i).text()); news.setDate(link2.get(i%2).text());//一条记录有两条标题 list.add(news); } System.out.println(list.toString()); } return list; }
以上是获取时间和标题 注释有
看效果
抓取的时候需要根据网页中的代码来改变
jsoup抓取网页内容
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。