从网页抓取数据的一般方法

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是heade

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

http://download.csdn.net/user/jinjazz

这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

private   void  login()
          {
             System.Net.WebClient wb  =   new  System.Net.WebClient();
 
             System.Collections.Specialized.NameValueCollection header  =   new  System.Collections.Specialized.NameValueCollection();
             header.Add( " Cookie " ,  " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
             header.Add( " Referer " ,  @" http://hovertree.net/bbs/login.php " );
             wb.Headers.Add(header);
             System.Collections.Specialized.NameValueCollection data  =   new  System.Collections.Specialized.NameValueCollection();
             data.Add( " formhash " ,  " ebd2faac " );
             data.Add( " referer " ,  " http://hovertree.net/bbs/search.php " );
             data.Add( " loginfield " ,  " username " );
             data.Add( " username " ,  " jinjazz " );
             data.Add( " password " ,  " 999 " );
             data.Add( " questionid " ,  " 0 " );
             data.Add( " answer " ,  "" );
             data.Add( " cookietime " ,  " 2592000 " );
             data.Add( " loginmode " ,  "" );
             data.Add( " styleid " ,  "" );
             data.Add( " loginsubmit " ,  " 提交 " );
 
              byte [] b  =  wb.UploadValues( " http://hovertree.net/bbs/login.php " ,  " Post " , data);
              string  strData  =  System.Text.Encoding.Default.GetString(b);
             Console.WriteLine(strData);
         }

以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/120331.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 飞在水面上的石头

    飞在水面上的石头

  • Vscode 常用插件安装[通俗易懂]

    Vscode 常用插件安装[通俗易懂]简介vscode是微软开发的的一款代码编辑器,就如官网上说的一样,vscode重新定义(redefined)了代码编辑器。当前市面上常用的轻型代码编辑器主要是:sublime,notepad++,editplus,atom这几种。比起notepad++、editplus,vscode集成了许多IDE才具有的功能,比起它们更像一个代码编辑器;比起sublime,vscode颜值更高,安装配置插件更为方便;比起atom,vscode启动速度更快,打开各种大文件不卡。可以说,vscode既拥有高自由度、又拥有高

  • JAVA中SQL查询语句大全,select多表查询,各种查询

    JAVA中SQL查询语句大全,select多表查询,各种查询以员工表:emp为例idnamegenderbirthdaydeptjobsalbonus编号姓名性别生日部门职位薪资奖金基本查询–查询emp表中的所有员工信息select*fromemp;–查询emp表中的所有员工的姓名、薪资、奖金selectname,sal,bonusfromemp;–查询emp表中…

  • eplan激活码破解步骤视频【中文破解版】

    (eplan激活码破解步骤视频)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。https://javaforall.cn/100143.htmlIntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,上面是详细链接哦~C…

  • automatic是什么手表_浪琴automatic什么意思

    automatic是什么手表_浪琴automatic什么意思1.在本文中,提出了一种注释和检索图像的特征组合方法。除了使用原始图像中的低级颜色特征外,我们还提取了从卷积神经网络(CNN)中学习的特征。我们发现这两组在进行自动图像标注(AIA)时是相互补充的

  • Java高级工程师薪资多少?如何才能成为一个优秀的高级程序员?

    Java高级工程师薪资多少?如何才能成为一个优秀的高级程序员?Java语言在2015年首次荣登编程语言热门榜的榜首,2018年再度登上榜首,下面不妨让我们来看看Java开发工程师的薪资待遇如何。以上是三张在猎聘网上随便找的三张截图,可见高级工程师年薪都是在30-60万。那么重点来了,怎样才算是一个高级工程师呢?你是否也能成为一个优秀的高级工程师?工程师必须掌握的知识点是那些?人人都想成为高薪架构师,为什么现在高…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号