网络爬虫1

首页 > 代码库 > 网络爬虫1

2024-09-03 03:03:18 217人阅读

网络爬虫，web crawler（网页蜘蛛，网络机器人,网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序

最简单的网络爬虫：读取页面中所有的邮箱

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.regex.Matcher;import java.util.regex.Pattern;public class WebCrawler {        public static void main(String[] args) throws IOException{        // 网址        //URL url = new URL("http://localhost:8080/JavaWeb/index.jsp");
 　　　　URL url = new URL("https://www.meizu.com/contact.html");        URLConnection conn = url.openConnection();                // 转流        InputStream is = conn.getInputStream();        InputStreamReader isReader = new InputStreamReader(is);                // 读取        BufferedReader bufRead = new BufferedReader(isReader);        String line = null;        String mailReg = "\\w+@\\w+(\\.\\w+)+";        Pattern p = Pattern.compile(mailReg);                while((line=bufRead.readLine())!=null){            // 匹配            Matcher matcher = p.matcher(line);            while(matcher.find()){                System.out.println(matcher.group());            }        }                is.close();    }}

网络爬虫1

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 网络爬虫1

网络爬虫1

看完仍有疑问？有类似问题直接问程序猿