HtmlAgilityPack 总结(一)

HtmlAgilityPack 总结(一)一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。截止到本文发表时,HtmlAgilityPack的最新版本为1.4.6。下载地址:ht

大家好,又见面了,我是你们的朋友全栈君。一个解析html的C#类库HtmlAgilityPack,

今天终于有时间整理一下,并把Demo分享一下。

HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解析html文档(在B/S结构的程序中客户端可以用Javascript、jquery解析html)。截止到本文发表时,HtmlAgilityPack的最新版本为 1.4.6。下载地址:http://htmlagilitypack.codeplex.com/。最新版本支持Linq to Objects ( LINQ to Xml ).

准备:

如果你有安装Nuget的话,可以直接查找安装即可。

下载后解压缩后有3个文件,这里只需要将其中的HtmlAgilityPack.dll(程序集)、HtmlAgilityPack.xml(文档,用于Visual Studio 2008中代码智能提示和帮助说明之用)引入解决方案中即可使用,无需安装任何东西,非常好用。

在C#类文件开头引入using HtmlAgilityPack;就可以使用该命名空间下的类型了。实际使用中,几乎都是以HtmlDocument类为主线的,这一点非常类似于微软.net framework中的XmlDocument类。XmlDocument类是操作的是xml文档,而HtmlDocument类操作的是html文档(其实也可以操作xml文档),它们的操作方式都是基于Dom,所不同的是后者取消了诸如GetElementsByTagName这样的方法,强化了GetElementById方法(在HtmlDocument中可以直接使用,而XmlDocument则不可以)。

HtmlAgilityPack中定位节点基本上都用Xpath表达式,Xpath表达式的参考文档可见:http://www.w3school.com.cn/xpath/xpath_syntax.asp。自行学习。

不过可以先用几个简单就可以。比如,我们用到最多可能就是针对某个元素(div)、或者某个class属性的div、或者某个id的div,或者以什么开头的div,

类似这样的Xpath还是比较简单的。

Xpath举几个例子,下面的代码中我们就会用到:

“//comment()”在XPath中表示“所有注释节点”

1、获取网页title:doc.DocumentNode.SelectSingleNode(“//title”).InnerText;
解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接:doc.DocumentNode.Descendants(“a”)

3、获取name为kw的input,也就是相当于getElementsByName():
            var kwBox = doc.DocumentNode.SelectSingleNode(“//input[@name=’kw’]”);

解释:”//input[@name=’kw’]”也是XPath的语法,表示:name属性等于kw的input标签。

//li/h3/a[@href]:所有li下面的h3包含a超级链接有href属性才符合。有的a可能是支持的js事件

//div[starts-with(@class,’content_single’)]:所有符合条件的div,并且它的class是由字符串content_single 开头的。

//标示获取documet下的所有符合条件。/div标示从根目录开始的符合条件的。

以上是准备工作。下面说一下HtmlAgilityPack读取web页面,并解析的方法步骤。

1.读取url:

                HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb();

                HtmlAgilityPack.HtmlDocument doccc = hw.Load(url);//是你需要解析的url

                ArrayList ImagePtahs = GetHrefs(doccc);

这里可能会遇到2个问题。

一个是编码问题,一个是gzip不支持的问题。

首先编码问题解决办法:就是不用HtmlAgilityPack去获取Url的data数据,自己获取了。大家可能就问了:我自己获取了他不给我解析那?

没事,他不会那么笨的。谁的肉不是吃啊?

方法如下:

              WebProxy proxyObject = new WebProxy(IP, port);//这里我是用的代理

                //向指定地址发送请求

               HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create(url);

                HttpWReq.Proxy = proxyObject;

                HttpWReq.Timeout = 10000;

                HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse();              

                StreamReader sr = new StreamReader(HttpWResp.GetResponseStream(), System.Text.Encoding.GetEncoding(“UTF-8”));             

                //注意上面的编码了吗??

                HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                doc.Load(sr);

                int res = CheckIsGoodProxy(doc); //这是我解析的函数,还没到那一步。不解释了。

                sr.Close();

                HttpWResp.Close();

                HttpWReq.Abort();

另一个问题就是很奇怪了。gzip的问题开启了gzip压缩的网页请求时会报错。报错信息为gzip”不是受支持的编码名。

在谷歌上搜索了半天,终于找到解决方案,而且不必更换HttpRequest或WebClient进行请求。同时还可以用此方法设置cookie,render伪装等等。。。
解决后代码如下:在你发起请求的是修改一下。

HtmlWeb webClient = new HtmlWeb();

HtmlAgilityPack.HtmlWeb.PreRequestHandler handler = delegate(HttpWebRequest request)

{

       request.Headers[HttpRequestHeader.AcceptEncoding] = “gzip, deflate”;

       request.AutomaticDecompression = DecompressionMethods.Deflate | DecompressionMethods.GZip;

       request.CookieContainer = new System.Net.CookieContainer();

       return true;

};

webClient.PreRequest += handler;

HtmlDocument doc = webClient.Load(this.getUrl());

可能最新版本的HtmlAgilityPack会修复这个问题吧。期待中。

2.用Xpath解析。

这一步就比较简单了。就用Xpath选出你想要的数据,遍历他们,取出他们的value即可。

实例代码:

    private ArrayList GetHrefs(HtmlAgilityPack.HtmlDocument _doc)

        {

            try

            {

                Images = new ArrayList();

                HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes(“//li/h3/a[@href]”);

                   HtmlNodeCollection hrefs2 = _doc.DocumentNode.SelectNodes(“//div[starts-with(@class,’content_single’)]”);

                if (hrefs == null)

                    return new ArrayList();

                foreach (HtmlNode href in hrefs)

                {

                    //  Images.Add(href.Attributes[“src”].Value);

                    string hreff = href.Attributes[“href”].Value;// 排除  博海拾贝第二百零二期】吃完薯条寂寞了

                    string title = href.Attributes[“title”].Value;

                  if (title.IndexOf(“邪恶”) >= 0)

                    {

                        continue;

                    }

                    if (title.IndexOf(“恶搞”) >= 0)

                    {

                        continue;

                    }

                    if (title.IndexOf(“雷人”) >= 0)

                    {

                        continue;

                    }

                    ///执行数据保存的逻辑

                }

}

catch (Exception ex)

            {

                ShowLogMsg(“出错了:”+ex.Message+ex.StackTrace);

                return new ArrayList();

            }

        }

每一个Htmlnode,你要获取他的数据用这个方法:  img.Attributes[“src”].Value


整个过程就是这样的简单。大家有不明白或者有问题可以留言交流。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/159672.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • php导出excel表格_phpspreadsheet导出

    php导出excel表格_phpspreadsheet导出Spout是一个PHP库,可以快速,可扩展的方式读写电子表格文件(CSV,XLSX和ODS)。与其他文件读写器相反,它能够处理非常大的文件,同时保持内存使用率非常低。phpspreadsheet是phpexcel的下一个版本。它打破了兼容性,大大提高了代码基础质量(名称空间、PSR兼容性、使用最新的PHP语言功能等)。因为所有的努力都转移到了phpspreadsheet,phpexcel将不……………

  • SwipeRefreshLayout 使用

    SwipeRefreshLayout 使用SwipeRefreshLayout使用v4包下SwipeRefreshLayout支持listView,webView,scrollView,recyclerView等在布局中使用SwipeRefreshLayout将需要下拉刷新的控件包裹。当这些控件滑动到边缘时会触发SwipeRefreshLayout.onRefresh();到此便完成了一次下拉刷新的操作。使用如下方法改变划出的

  • Clover 引导 Windows 及 Linux 双系统

    Clover引导Windows及Linux双系统UEFIcnblogs@Orcim  此文比较详细地介绍了通过修改Clover的配置文件,添加Clover启动项的方法(添加Ubuntu启动项)。此文阅读前提,假定你已经完成安装Clover至硬盘EFI分区,Ubuntu已安装。为什么是CLOVER引导?一方面,…

  • apt 与 dpkg[通俗易懂]

    apt 与 dpkg[通俗易懂]dpkg简介“dpkg”是“DebianPackager”的简写。为“Debian”专门开发的套件管理系统,方便软件的安装、更新及移除。所有源自“Debian”的“Linux”发行版都使用“dpkg”,例如“Ubuntu”、“Knoppix”等。dpkg是Debian软件包管理器的基础,它被伊恩·默多克创建于1993年。dpkg与RPM十分相似,同样被用于安装、卸载和供给….

  • 如何注册免费域名

    如何注册免费域名首先,你需要一个域名,如果你自己买的有域名,那么这里我再说就没太多意义了,这里要说的是用免费的域名,是的,你没有看错,免费的域名首先登陆https://my.freenom.com网站注册个用户,当然了也可以先不用注册,如果想跟着本教程走,则最好是先不要注册用户(有Google账户的小伙伴可以直接登陆了)然后就是想个你要注册的域名,搜一下(注:只有.tk、.cf、.ml、.ga、….

  • ER图转关系模型_实体关系图变关系模型

    ER图转关系模型_实体关系图变关系模型(1)实体类型的转换将每个实体类型转换成一个关系模式,实体的属性即为关系的属性,实体标识符即为关系的键。(2)联系类型的转换实体间的关系是1对1在实体类型转换成两个关系模式中的任意一个关系模式的属性中加入另一个关系模式的键和联系类型的属性。实体间的联系是1对N则在N端实体类型转换成的关系模式中加入1端实体类主键。如实体间的联系是M对N单独将联系类型也转换成关系模式。将M和N端的主键都加进去。示例:该ER图转换为关系模型商店和职工是一对多关系,一个商店有多个

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号