首页 > 代码库 > 网站数据获取

网站数据获取

2024-07-27 17:25:35 213人阅读

本例中主要是通过HtmlAgilityPack解析html源码获取所需的数据.

using HtmlAgilityPack;

1.通过C#中WebRequest，WebResponse，StreamReader类获取网页源代码

WebRequest request = WebRequest.Create(url);
using (WebResponse response = request.GetResponse())
using (StreamReader reader = new StreamReader(response.GetResponseStream(), encoding))
result = reader.ReadToEnd();

2．通过网页URL获取HtmlNode ，通过HtmlAgilityPack中的HtmlDocument类获取

HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(htmlSource);
HtmlNode rootNode = document.DocumentNode;
return rootNode;

3.通过HtmlNode的SelectSingleNode方法就可获取你所需要的内容了，注意以下代码中path是HTML的标签路径如:path="//div[@class=‘article_title‘]/h1/span/a";//文章标题PATH

对应于

<h1>

<span>

<a>获取这里的内容

</a>

</span>

</h1>

</div>

参考源码如下:

HtmlNode temp = srcNode.SelectSingleNode(path);
if (temp == null)
return null;
return temp.InnerText;

返回值为: 获取这里的内容

其中temp.InnerHtml可获取网站HTML的内容如：<a>获取这里的内容</a>

通过以上操作就可获取到网站中你所需要的内容，希望此内容对大家有所帮助，引用源码文章链接http://blog.csdn.net/gdjlc/article/details/11620915

网站数据获取

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 网站数据获取

网站数据获取

通过以上操作就可获取到网站中你所需要的内容，希望此内容对大家有所帮助，引用源码文章链接http://blog.csdn.net/gdjlc/article/details/11620915

看完仍有疑问？有类似问题直接问程序猿