首页 > 代码库 > 数据采集类
数据采集类
爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:
protected string GetPageHtml(string url){string pageinfo;try{WebRequest myreq = WebRequest.Create(url);WebResponse myrep = myreq.GetResponse();StreamReader reader = new StreamReader(myrep.GetResponseStream(), Encoding.GetEncoding("gb2312"));pageinfo = reader.ReadToEnd();}catch{pageinfo = "";}return pageinfo;}
按上述方法就可以在程序中获取某URL的页面源文件。
但是有些网站屏蔽了爬虫,那就需要模拟浏览器获取的方法来进行,具体代码如下:
protected string GetPageHtml(string url){string pageinfo;try{HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(url);myReq.Accept = "image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*";myReq.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)";HttpWebResponse myRep = (HttpWebResponse)myReq.GetResponse();Stream myStream = myRep.GetResponseStream();StreamReader sr = new StreamReader(myStream, Encoding.Default);pageinfo = sr.ReadToEnd().ToString();}catch{pageinfo = "";}return pageinfo;}
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。