首页 > 代码库 > WinForm使用webbrowser爬取数据,中文乱码问题
WinForm使用webbrowser爬取数据,中文乱码问题
使用winform中的webbrowser抓取某个网站的数据时,遇到中文乱码的问题:
当时使用的获取网页内容的代码为:
webBrowser1.DocumentText.ToString();
不管我如何使用转换编码的方式进行转换,都是乱码,在度娘的帮助下,终于找到正确答案:
如果所爬取的网站的编码是GB2312,则可以使用如下代码进行读取网页数据:
System.IO.StreamReader Reader = new System.IO.StreamReader(this.webBrowser1.DocumentStream, System.Text.Encoding.GetEncoding("GB2312")); string Document = null; Document = Reader.ReadToEnd();
如果所爬取的网站的编码UTF8,则使用下面的代码处理:
System.IO.StreamReader Reader = new System.IO.StreamReader(this.webBrowser1.DocumentStream, System.Text.Encoding.GetEncoding("utf-8"));
不论网站的编码格式为何, 都可以使用如下方式处理:
System.IO.StreamReader Reader = new System.IO.StreamReader(this.webBrowser1.DocumentStream, System.Text.Encoding.GetEncoding(this.webBrowser1.Document.Encoding ));
WinForm使用webbrowser爬取数据,中文乱码问题
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。