从一段文字中提取出uri信息

首页 > 代码库 > 从一段文字中提取出uri信息

从一段文字中提取出uri信息

2024-09-05 02:58:31 217人阅读

package handle.groupby;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.Reader;
import java.io.Writer;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.mockito.asm.tree.IntInsnNode;

public class GetUrlFromString {

    @SuppressWarnings("resource")
    public static void main(String[] args) throws IOException {
        String line="";
        Pattern pattern = Pattern.compile("([\\w.]{1}[\\w\\/.\\s]*[\\w]{1})",Pattern.CASE_INSENSITIVE);
        
        BufferedReader r= new BufferedReader(new FileReader(args[0]));
        BufferedWriter w=new BufferedWriter(new FileWriter(args[1])) ;
        while ((line=r.readLine())!=null) {
            String source = line;
             Matcher matcher = pattern.matcher(source);
                while(matcher.find()){
//                    System.out.println(matcher.group(matcher.groupCount()));
                    String url=matcher.group(matcher.groupCount());
                    if (url.contains(".")) {
                        String resUrl="";
                        String resUrl2="";
                        if (url.contains("/")) {
　　　　　　　　　　　　　　　　//这个判断是为了提取出短域名的网站级访问访问信息，不需要可以删掉。
　　　　　　　　　　　　　　　　//例如从：汉字汉字汉字t.cn/RVIIIj8汉字汉字 中提取出 t.cn/RVIIIj8而不是t.cn
                            int i =url.lastIndexOf("/");
                            int i2 =url.indexOf("/");
                            if (i==i2) {
                                resUrl=url;
                            }else {
                                resUrl =url.split("/")[0];
                            }
                        }else {
                            resUrl=url;
                        }
                        //去空格
                        resUrl= resUrl.replaceAll(" ", "");
                        w.write(source+"|"+resUrl);
                        w.write("\r\n");
                    }
                }
        }
        r.close();
        w.flush();
        w.close();
        System.out.println("执行完毕");
    }

}

从一段文字中提取出uri信息

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 从一段文字中提取出uri信息

从一段文字中提取出uri信息

看完仍有疑问？有类似问题直接问程序猿