从一个网页上摘取想要的元素

首页 > 代码库 > 从一个网页上摘取想要的元素

从一个网页上摘取想要的元素

2024-09-30 02:09:02 204人阅读

示例：从网页上摘取页面中的所有邮箱

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Test {
    public static void main(String[] args) throws Exception {
        // 1.1 创建一个url对象
        URL url = new URL(
                "https://www.douban.com/group/topic/41562980/?start=500");
        // 1.2打开链接
        URLConnection conn = url.openConnection();
        // 1.3 设置连接网络超时时间 单位为毫秒
        conn.setConnectTimeout(1000 * 10);
        // 1.4 通过流 操作读取指定网络地址中的文件
        BufferedReader bufr = new BufferedReader(new InputStreamReader(
                conn.getInputStream()));
        String line = null;
        // 1.5 匹配email的正则
        String regex = "[a-zA-Z0-9_-]+@\\w+\\.[a-z]+(\\.[a-z]+)?";
        // 1.6 使用模式的compile()方法生成模式对象
        Pattern p = Pattern.compile(regex);
        // 1.
        while ((line = bufr.readLine()) != null) {
            Matcher m = p.matcher(line);
            while (m.find()) {
                System.out.println(m.group());// 获得匹配的email
            }
        }
    }
}

从一个网页上摘取想要的元素

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 从一个网页上摘取想要的元素

从一个网页上摘取想要的元素

看完仍有疑问？有类似问题直接问程序猿