首页 > 代码库 > 正则表达式--——网页爬虫
正则表达式--——网页爬虫
网页爬虫
import java.net.*; import java.io.*; import java.util.regex.*; class findMail { public static void main(String[] args) throws Exception { //读取流 关联文件 //BufferedReader bin = new BufferedReader(new FileReader("mail.txt")); //获取网页上的数据 需要获取输入流 来自网页端的 URLConnection的getInputStream()来获取输入流 URL url = new URL("http://127.0.0.1:8080/myweb/mail.html"); URLConnection conn = url.openConnection(); BufferedReader bin = new BufferedReader(new InputStreamReader(conn.getInputStream())); String line = null; //定义 邮箱 格式 正则规则 String mailreg = "\\w{2,13}@\\w{2,5}(\\.[a-z]+)+"; //正则规则 封装模式 对象 Pattern p = Pattern.compile(mailreg); while ((line = bin.readLine())!=null) { Matcher m = p.matcher(line);//将模式与字符串关联 if (m.find()) { System.out.println(m.group()); } //System.out.println(line); } } }
本文出自 “要么拼命,要么滚回去!” 博客,请务必保留此出处http://jiangzuun2014.blog.51cto.com/8732469/1440433
正则表达式--——网页爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。