c#爬取Silverlight网页[通俗易懂]

c#爬取Silverlight网页[通俗易懂]前言:爬取普通的文本网页非常容易,但爬取Silverlight的网页代码时,有时候可能会加密。这样就会很麻烦了。下面就爬取网站http://zx.bjmemc.com.cn/(北京空气质量网)进行说明。任务:网站http://zx.bjmemc.com.cn/显示的内容如下图所示。我们的任务就是将空气质量数据抓取下来。工具:1、fiddler,http://www.

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

前言:

爬取普通的文本网页非常容易,但爬取Silverlight的网页代码时,有时候可能会加密。这样就会很麻烦了。下面就爬取网站http://zx.bjmemc.com.cn/ (北京空气质量网)进行说明。

任务:

网站http://zx.bjmemc.com.cn/显示的内容如下图所示。我们的任务就是将空气质量数据抓取下来。

c#爬取Silverlight网页[通俗易懂]

工具:

1、fiddler,http://www.telerik.com/fiddler,一款优秀的网页请求分析工具

2、reflector,http://download.csdn.net/detail/qing_lgq/6764265,.net源码激活成功教程工具

步骤

1、安装fiddler和reflector,并激活成功教程reflector。注意,下载、安装和激活成功教程reflector的时候请关闭杀毒软件,内有注册机,可能会被杀毒软件直接删除。

2、打开fiddler,使之处于监听状态。

3、用浏览器打开网页:http://zx.bjmemc.com.cn/。(此网站做得非常好,为了防止爬取,一旦用户打开浏览器自带的developer tool,就不会加载任何东西,为他们点个赞,这就是为什么我们必须用fiddler等分析工具的原因)

4、待网页加载完毕,fiddler便已经抓取到了所有的网页请求,如下图所示。在此简要说明一下fiddler的页面布局。左侧是所有的网页请求,右上是发送请求信息,右下是对应的接收信息。最下边状态栏的左边有两个按钮,左侧的是监听开关(下图是关闭状态,未显示该按钮),右侧的ie图标是监听对象,可以选择监听网页请求、非网页请求还是所有进程的请求。注意请求信息和接收信息窗口都有很多tag,根据自己的需求切换。

c#爬取Silverlight网页[通俗易懂]

5、在fiddler左侧找到网页的直接请求,即上图的左侧的第二项,返回信息窗口的tag切换到textview。在窗口的搜索框输入xap,快速找到<param name=”source” value=”ClientBin/BEPB.xap”/>,其中的value属性值就是后台Silverlight的代码。

6、将ClientBin/BEPB.xap与当前网页网址拼接为http://zx.bjmemc.com.cn/ClientBin/BEPB.xap,用浏览器打开,浏览器自动下载BEPB.xap文件。

7、修改BEPB.xap文件名后缀为BEPB.zip,用压缩文件解压缩,得到的文件夹内容如下图所示。这些就是Silverlight后台文件以及引用文件。其中BEPB.dll是该Silverlight项目的核心文件。

c#爬取Silverlight网页[通俗易懂]

8、用reflector打开BEPB.dll,如下图所示。左侧是方法名/命名空间名,右侧是对应的代码。接下来便是一个痛苦的过程了,得一个一个分析,找到密钥。但是还是有章可循。

c#爬取Silverlight网页[通俗易懂]

9、fiddler继续上场。如下图所示。经过分析,获得空气质量数据的是第7个请求,选中它,右下部分的返回信息窗口的tag选择HexView,表示以十六进制显示。右上部分发送信息窗口选择Raw,可是发送时post的数据调用了DataService下的GetWebData方法,在reflector的搜索框中输入此两个关键字,如此顺藤摸瓜,便能很快找到加密的密码。

c#爬取Silverlight网页[通俗易懂]

10、上图右下返回信息窗口的hexview中,两端有部分信息并不是加密信息,分析需要将返回信息的两端无用字节删除。

以下附上Silverlight加解密的代码。具体抓取代码便不公布了,具体情况具体分析,这里只是提供一个大体思路。

/// <summary>
/// hmacSha1算法加密(生成长度40)
/// </summary>
/// <param name="signatureString">加密明文</param>
/// <param name="secretKey">加密密钥</param>
/// <param name="raw_output">是否输出原始编码</param>
/// <returns></returns>
public static object hmacSha1(string signatureString, string secretKey, bool raw_output = false)
{
	var enc = Encoding.UTF8;
	HMACSHA1 hmac = new HMACSHA1(enc.GetBytes(secretKey));
	hmac.Initialize();

	byte[] buffer = enc.GetBytes(signatureString);
	if (raw_output)
	{
		return hmac.ComputeHash(buffer);
	}
	else
	{
		return BitConverter.ToString(hmac.ComputeHash(buffer)).Replace("-", "").ToLower();
	}
}

/// <summary>
/// 使用AES加密字符串
/// </summary>
/// <param name="encryptString">待加密字符串</param>
/// <param name="encryptKey">加密密匙</param>
/// <param name="salt">盐</param>
/// <returns>加密结果,加密失败则返回源串</returns>
public static string EncryptAES(string encryptString, string encryptKey, string salt)
{
	AesManaged aes = null;
	MemoryStream ms = null;
	CryptoStream cs = null;

	string str = null;

	try
	{
		Rfc2898DeriveBytes rfc2898 = new Rfc2898DeriveBytes(encryptKey, Encoding.UTF8.GetBytes(salt));

		aes = new AesManaged();
		aes.Key = rfc2898.GetBytes(aes.KeySize / 8);
		aes.IV = rfc2898.GetBytes(aes.BlockSize / 8);

		ms = new MemoryStream();
		cs = new CryptoStream(ms, aes.CreateEncryptor(), CryptoStreamMode.Write);

		byte[] data = Encoding.UTF8.GetBytes(encryptString);
		cs.Write(data, 0, data.Length);
		cs.FlushFinalBlock();

		str = Convert.ToBase64String(ms.ToArray());
	}
	catch
	{
		str = encryptString;
	}
	finally
	{
		if (cs != null)
			cs.Close();

		if (ms != null)
			ms.Close();

		if (aes != null)
			aes.Clear();
	}

	return str;
}

/// <summary>
/// 使用AES解密字符串
/// </summary>
/// <param name="decryptString">待解密字符串</param>
/// <param name="decryptKey">解密密匙</param>
/// <param name="salt">盐</param>
/// <returns>解密结果,解谜失败则返回源串</returns>
public static string DecryptAES(string decryptString, string decryptKey, string salt)
{
	AesManaged aes = null;
	MemoryStream ms = null;
	CryptoStream cs = null;

	string str = null;

	try
	{
		Rfc2898DeriveBytes rfc2898 = new Rfc2898DeriveBytes(decryptKey, Encoding.UTF8.GetBytes(salt));

		aes = new AesManaged();
		aes.Key = rfc2898.GetBytes(aes.KeySize / 8);
		aes.IV = rfc2898.GetBytes(aes.BlockSize / 8);

		ms = new MemoryStream();
		cs = new CryptoStream(ms, aes.CreateDecryptor(), CryptoStreamMode.Write);

		byte[] data = Convert.FromBase64String(decryptString);
		cs.Write(data, 0, data.Length);
		cs.FlushFinalBlock();

		str = Encoding.UTF8.GetString(ms.ToArray(), 0, ms.ToArray().Length);
	}
	catch
	{
		str = decryptString;
	}
	finally
	{
		if (cs != null)
			cs.Close();

		if (ms != null)
			ms.Close();

		if (aes != null)
			aes.Clear();
	}

	return str;
}

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/180413.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • oracle一次提交大量数据_oracle修改数据

    oracle一次提交大量数据_oracle修改数据StringBuilderstrSql=newStringBuilder();strSql.Append(“insertintoLB000(“);strSql.Append(“LBID,CARRIER,COMPANY_NAME,DOM_ASTD_WGT,FRN_ASTD_WGT,DOM_CSTD_WT,FRN_CSTD_WT,DOM_ISTD_WT,FRN_ISTD_WT,DOM_CREW…

  • opencv滤波、图像形运算、Sober算子

    opencv滤波、图像形运算、Sober算子1.opencv中滤波操作:ksize必须是奇数1.均值操作:选定图像上的行数和列数,求出总和,除以总个数,然后将这个数放到这个选定区的中间区域中。数学表达式:4上的值=(5+6+6+7+4+…..+55)/25;函数:result=cv2.blur(src,ksize)importcv2o=cv2.imread(‘D:\cc1\lenacolor.png’)#进行图片的读取s1=cv2.blur(o,(10,10))#进行均值操作cv2.imshow(‘oringle’,o)#进行

  • 《PRML》学习笔记2.2——多项式分布和狄利克雷分布

    《PRML》学习笔记2.2——多项式分布和狄利克雷分布  上回讲完了伯努利分布、二项分布和Beta分布,以及从最大似然估计的非参数化思想和引入共轭先验,使得参数变成一个变量,建模求解的参数化方法两方面介绍了求解模型参数的方法。没有读过的朋友可以参考:《PRML》学习笔记2.1——伯努利分布、二项分布和Beta分布,从贝叶斯观点出发  今天将为大家介绍两个更难理解的分布——多项式分布和狄利克雷分布。1.多项式变量和多项式分布  …

    2022年10月12日
  • 角色权限表怎么设计_用户角色权限在数据库表中怎样实现

    角色权限表怎么设计_用户角色权限在数据库表中怎样实现设计一个灵活、通用、方便的权限管理系统。      在这个系统中,我们需要对系统的所有资源进行权限控制,那么系统中的资源包括哪些呢?我们可以把这些资源简单概括为静态资源(功能操作、数据列)和动态资源(数据),也分别称为对象资源和数据资源,后者是我们在系统设计与实现中的叫法。系统的目标就是对应用系统的所有对象资源和数据资源进行权限控制,比如应用系统的功能菜单、各个界面的按钮、数据显示的列以

  • pycharm激活码2021年【注册码】

    pycharm激活码2021年【注册码】,https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

  • JavaSE综合项目演练

    JavaSE综合项目演练光阴似箭日月如梭,大家学习已经有了一段时间了,转眼间,从刚开始如何配置JDK已经到了现在快学完网络编程了。学了这么多,眼看就要进入下一个阶段了,数据库编程了,那么在进入下个阶段前,我们来完成一个综合性比较强的结业项目,告别JavaSE阶段,学完JavaSE,大家已经对编程这块相信已经有了一个很深的理解,但是仅仅是JavaSE还是不够的,我们还需要学习更多的,更全面知识才足以在接下来的生活中过五关斩…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号