首页 > 代码库 > 网页爬虫
网页爬虫
import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;public class NetSpider { public static void main(String[] args) throws IOException { //将文件封装成File对象 File file = new File("mailTo.txt"); String regex = "\\w+@\\w+(\\.\\w+)+"; List<String> mailList = getMails(file,regex); for(String mail:mailList){ System.out.println(mail); } } public static List<String> getMails(File file,String regex) throws IOException { //1.先读取数据 BufferedReader bufr = new BufferedReader(new FileReader(file)); //2.将正则封装成对象 Pattern p = Pattern.compile(regex); //3.定义list集合 List<String> list = new ArrayList<String>(); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ list.add(m.group()); } } return list; }}
网页爬虫
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。