真正解决HtmlAgilityPack抓取网页 中文乱码问题
2011-05-12 10:50
811 查看
HTMLAgilityPack官方Dll处理汉字时出现乱码。
解决方案:
1.打开官方提供的Source项目
2.找到HtmlAgilityPack项目
![](http://hi.csdn.net/attachment/201105/12/0_1305168540gZB4.gif)
3.找到“ private HttpStatusCode Get 方法”
![](http://hi.csdn.net/attachment/201105/12/0_1305168548fOUS.gif)
4.按如下修改代码
上个修改后的HtmlAgilityPack抓取网页中文正常显示的图片
解决方案:
1.打开官方提供的Source项目
2.找到HtmlAgilityPack项目
![](http://hi.csdn.net/attachment/201105/12/0_1305168540gZB4.gif)
3.找到“ private HttpStatusCode Get 方法”
![](http://hi.csdn.net/attachment/201105/12/0_1305168548fOUS.gif)
4.按如下修改代码
//原官方代码 //Encoding respenc = !string.IsNullOrEmpty(resp.ContentEncoding) // ? Encoding.GetEncoding(resp.ContentEncoding) // : null; //修改中文乱码问题 System.Text.Encoding respenc; if ((resp.ContentEncoding != null) && (resp.ContentEncoding.Length > 0)) { respenc = System.Text.Encoding.GetEncoding(resp.ContentEncoding); } else if ((resp.CharacterSet != null) && (resp.CharacterSet.Length > 0))//根据Content-Type中获取的charset编码 { if (string.Compare(resp.CharacterSet, "ISO-8859-1", true, System.Globalization.CultureInfo.InvariantCulture) == 0) respenc = System.Text.Encoding.GetEncoding("GB2312"); else respenc = System.Text.Encoding.GetEncoding(resp.CharacterSet); } else { respenc = System.Text.Encoding.GetEncoding("GB2312"); } //编码修改结束
上个修改后的HtmlAgilityPack抓取网页中文正常显示的图片
![](http://hi.csdn.net/attachment/201105/12/0_13051687242sXS.gif)
相关文章推荐
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 真正解决HtmlAgilityPack抓取网页 中文乱码问题
- 解决HttpWebRequest和HtmlAgilityPack采集网页中文乱码问题
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- HtmlAgilityPack 抓取中文页面乱码问题的解决方案
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
- 解决PHP中file_get_contents抓取网页中文乱码问题
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- Python+Requests安装及抓取网页源码中文乱码问题的解决
- python 解决抓取网页中的中文显示乱码问题
- python 网页抓取中的中文乱码问题解决
- Node.js抓取中文网页乱码问题和解决方法
- HtmlAgilityPack中文乱码问题
- 使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
- PHP中使用file_get_contents抓取网页中文乱码问题解决方法
- Node.js抓取中文网页乱码问题和解决方法
- 使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
- 使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
- python 解决抓取网页中的中文显示乱码问题