首页 > 代码库 > Java爬虫项目实战(一)

Java爬虫项目实战(一)

目的:

        通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接:

           http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包:              

          http://jsoup.org/packages/jsoup-1.8.1.jar

 之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取html,一是根据url链接,而是从本地路径获取,三是通过字符串解析成html文档

在这里,我们利用前两种搭配使用:

  先看本地是否存在需要的网页,如果不存在就通过url获取并保存在本地(下次就可以不需要重新从网络加载)

我们先建一个类叫做Html类,具体内容如下:

package Product;import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.util.ArrayList;import java.util.Arrays;import org.jsoup.*;import org.jsoup.nodes.*;import org.jsoup.select.*;public class Html {         //根据url从网络获取网页文本    public Document getHtmlTextByUrl(String url)    {        Document doc = null;        try {            //doc = Jsoup.connect(url).timeout(5000000).get();            int i = (int) (Math.random()*1000); //做一个随机延时,防止网站屏蔽
while(i!=0) 
{ i
--; }
doc
= Jsoup.connect(url).data("query", "Java")
.userAgent(
"Mozilla") .cookie("auth", "token")
.timeout(
300000) .post();
}
catch (IOException e)
{ e.printStackTrace();
try {
doc
= Jsoup.connect(url).timeout(5000000).get();
}
catch (IOException e1)
{
// TODO Auto-generated catch block e1.printStackTrace(); } }

return doc;
}

//根据本地路径获取网页文本,如果不存在就通过url从网络获取并保存

public Document getHtmlTextByPath(String name,String url)
{
String path
= "D:/Html/" +name+".html";
Document doc
= null ;
File input
= new File(path);
String urlcat
= url;
try {
doc
= Jsoup.parse(input, "GBK");
if(!doc.children().isEmpty())
{
doc
=null; System.out.println("已经存在"); }
}
catch (IOException e)
{
System.out.println(
"文件未找到,正在从网络获取.......");
doc
= this.getHtmlTextByUrl(url);
//并且保存到本地
this.Save_Html(url, name); } return doc; } //此处为保存网页的函数
//将网页保存在本地(通过url,和保存的名字)    public  void Save_Html(String url,String name) {                  try {                       name =  name+".html";                     // System.out.print(name);                     File dest = new File("D:/Html/" +name);//D:\Html                      //接收字节输入流                      InputStream is;                      //字节输出流                      FileOutputStream fos = new FileOutputStream(dest);                                   URL temp = new URL(url);                     is = temp.openStream();                                      //为字节输入流加缓冲                     BufferedInputStream bis = new BufferedInputStream(is);                     //为字节输出流加缓冲                     BufferedOutputStream bos = new BufferedOutputStream(fos);                                  int length;                                  byte[] bytes = new byte[1024*20];                     while((length = bis.read(bytes, 0, bytes.length)) != -1){                         fos.write(bytes, 0, length);                     }                              bos.close();                     fos.close();                     bis.close();                     is.close();                 } catch (IOException e) {                     e.printStackTrace();                 }             }

 



 这样通过Html这个类,调用getHtmlTextByPath函数,传入我们的链接和想要保存的名称,接下就可以对这个网页文本提取信息

并将整个网页下载到我们的本地。

看到我们的网站是这样的:

技术分享

利用谷歌浏览右键检查元素,我们注意观察黄色标记的部分:

技术分享     技术分享

我们发现这些文本信息和超链接信息在tr 下的td下的a标签内,利用我们的jsoup可以直接获取到这些信息,详情请看:

//根据元素属性获取某个元素内的elements列表    public Elements getEleByClass(Document doc,String className)    {        Elements elements= null;    
elements = doc.select(className);//这里把我们获取到的html文本doc,和工具class名,注意<tr class="provincetr">
return elements; //此处返回的就是所有的tr集合
}

我们在调用的时候,就直接把我们获取的html文本,以及"tr.provincertr"作为参数传入,在来解析tr集合内部的信息,

也就是td中两个a标签href和文本内容:比如href="http://www.mamicode.com/12.html"  北京

代码如下:

//获取省 、市 、县等的信息    public ArrayList getProvince(String name,String url ,String type)    {    ArrayList result= new ArrayList();        //"tr.provincetr"         String classtype = "tr."+type+"tr";          //从网络上获取网页        // Document doc = this.getHtmlTextByUrl(url);         //从本地获取网页,如果没有则从网络获取         Document doc2 = this.getHtmlTextByPath(name,url);         System.out.println(name);         if(doc2!=null){            Elements es =this.getEleByClass(doc2,classtype);  //tr的集合        for(Element e : es)   //依次循环每个元素,也就是一个tr        {            if(e!=null){            for(Element ec : e.children())  //一个tr的子元素td,td内包含a标签            {                String[] prv = new String[4];   //身份的信息: 原来的url(当前url)  名称(北京) 现在url(也就是北京的url)  类型(prv)省                if(ec.children().first()!=null)                {                //原来的url                prv[0]=url;  //就是参数url                //身份名称                System.out.println(ec.children().first().ownText());                prv[1]=ec.children().first().ownText();  //a标签文本  如:北京                //身份url地址                //System.out.println(ec.children().first().attr("href"));                //http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html                String ownurl=ec.children().first().attr("abs:href");  //北京的url                //因为如果从本地取得话,会成为本地url,所以保留第一次从网络上的url,保证url不为空                if(ownurl.length()<10)                {   connectOrcl c = new connectOrcl();                    ownurl = c.selectOne(prv[1]); //从数据库中取,这是另一个调用数据库函数,根据名称取url                }                prv[2]=ownurl;  //如:北京自己的url                System.out.println(prv[2]);                //级别                prv[3]=type; //就是刚刚传的类型,后面会有city 、county等              //将所有身份加入list中                    result.add(prv);}            }}        }        }        return result;  //反回所有的省份信息集合,存数据库,字段类型为: baseurl  name ownurl levelname(type) updatetime    }

 

 

 

 

 

 

Java爬虫项目实战(一)