[转摘]利用SgmlReader返回XPath分析HTML

[转摘]利用SgmlReader返回XPath分析HTML

SgmlReader是一款SGML解析器,通过解析html文件,并能有效的把html转换为格式较规范的XHTML。
      所以,再利用XPath去查找你所想要的值是非常方便的。
      个人分析HTML方法:
                  1.正则表达式 
                  2.字符串截取 
                  3.把HTML代码当成树形结构理解,想取到哪个节点的值很方便(属xml的一种)
      最近朋友需要一些房地产的数据,我试着找了一些采集的方法,google很多,最终无果。花一个晚上自己写了个简单房地产数据采集。

      核心是利用SgmlReader生成XHTML文档后,根据XPath 语句来读取数据。
      步骤: 
             1. 下载WebURL HTML 代码以StreamReader 返回

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

 1                 Random ro = new Random();
 2                 int r = ro.Next();
 3                 string strUrl = url + &id= + r.ToString();
 4 
 5                 HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(strUrl);
 6                 request.Method = WebRequestMethods.Http.Get;
 7                 request.Timeout = 10000;
 8                 HttpWebResponse response = (HttpWebResponse)request.GetResponse();
 9                 StreamReader reader = new StreamReader(response.GetResponseStream(), System.Text.Encoding.GetEncoding(utf-8));
10 
11                 return reader;

             2.在得到远程的HTML文件后,你就可以创建一个SgmlReader类的实例了。通过将其DocType属性设置为“HTML”,HTML文件的响应流可以被加载到SgmlReader实例,通过其InputStream属性进行解析。首先将HTML文件流加载到一个TextReader对象,然后将TextReader赋值给InputStream属性:

1 
            SgmlReader reader 
=
 
new
 SgmlReader();

2 
            reader.DocType 
=
 

HTML

;

3 
            reader.InputStream 
=
 
new
 StringReader(sReader.ReadToEnd());
//
sReader为远程HTML所返回的

 

            3.现在,你就可以通过调用SgmlReader的Read()方法来解析HTML文件了:

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

 1             StringWriter sw = new StringWriter();
 2             XmlTextWriter writer = new XmlTextWriter(sw);
 3             writer.Formatting = Formatting.Indented;
 4             while (reader.Read())
 5             {

 6                 if (reader.NodeType != XmlNodeType.Whitespace)
 7                 {

 8                     writer.WriteNode(reader, true);
 9                 }
10             }

 

            4.因为SgmlReader创建了格式规范的HTML,所以你可以用XPath语句来读取不同的节点。下面的代码说明了如何将SgmlReader生成的输出结果加载到一个XPathNavigator,然后如何用一个XPath语句来查询HTML文件结构: 

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

            XPathDocument doc = new XPathDocument(new StringReader(sw.ToString()));
            XPathNavigator nav 
= doc.CreateNavigator();
            XPathNodeIterator nodes 
= nav.Select(xPaths);//xpath表达式
              while (nodes.MoveNext())
            {

                str 
+= nodes.Current.Value + |;//str为你所根据xpath取到的值
            }
            
return str;

 

            例:如下HTML代码,要取到这个img的src地址

[转摘]利用SgmlReader返回XPath分析HTML
[转摘]利用SgmlReader返回XPath分析HTML
Code

HTML:
<div class=pBorder align=left>
<img src=http://pic.xxxxx.com/images/images/2009-04/461232.jpg alt=新世界四季山水 title=新世界四季山水>
</div>

XPath 为:xpath = //div[@class=’pBorder’]/img/@src;

传入上面方法中及返回:http://pic.xxxxx.com/images/images/2009-04/461232.jpg

 

如果你对XPath语言已经很熟悉,并了解.NET Framework中不同的XML解析API了,那么你就可以很容易地用SgmlReader类来解析HTML并读取数据了。

附:SgmlReader下载:http://download.csdn.net/source/1440928

转载于:https://www.cnblogs.com/dannyqiu/articles/1902955.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/110682.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 口罩预约管理系统——数据库设计(前端+PHP+MySQL)

    口罩预约管理系统——数据库设计(前端+PHP+MySQL)口罩预约管理系统(数据库设计)基本功能实现,如何结合前端基础、后端PHP和MySQL数据库实现呢?手把手教你设计数据库,搭建口罩预约管理系统,实现基本需求功能!

  • AJAX学习(一)AJAX基础

    AJAX学习(一)AJAX基础AJAX学习(一)AJAX基础举一个栗子AJAX请求的五个步骤AJAX详解Jquery中的ajaxajax常用的格式ajax在网络应用开发上运用很广泛,它能够达到局部刷新的效果,也就是页面的某一个组件或功能上进行客户端和服务端的数据交互来实现数据的刷新,而不需要整个页面重载,这样可以提升用户的使用感,缩短等待的时间。ajax的可以用的地方很多,因此是一个很重要的知识点。所以在此写下有关于我对a…

    2022年10月19日
  • 大学生全网各类资源网站汇总

    大学生全网各类资源网站汇总本文转自我的公众号(求学青年)为了方便你更好的找到想要的网站,我把之前所有分享的学习网站都整合起来啦!!一路走来,有八十多天吧,我几乎每天都分享了一个网站,说容易也容易,但是这也是我心中的一点坚持,

  • asp.net关于repeater嵌套repeater的方法「建议收藏」

    asp.net关于repeater嵌套repeater的方法「建议收藏」前台代码:                                               类别管理                                              ==名称==               操    作 请不要随意删除!&

    2022年10月13日
  • Tomcat配置环境变量

    Tomcat配置环境变量Tomcat是目前比较流行的开源且免费的Web应用服务器,在我的电脑上第一次安装Tomcat,再经过网上教程和自己的摸索后,将这个过程重新记录下来,以便以后如果忘记了可以随时查看。注意:首先要明确一点,Tomcat与Java密切相关,因此安装使用之前要先安装JDK并设置JDK的环境变量,由于机子上已经安装好了JDK,也设置好了JDK环境变量,因此这里不再过多叙述,只说明我设置好的环境变量:JAV…

  • composer windows安装,使用新手入门

    composer windows安装,使用新手入门

    2021年10月20日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号