Email:xpjco@foxmail.com
精准采集官网-精准客源-邀请码代理-十年专注目标客户资源数据采集
当前位置:网站首页 > 行业资讯 正文 行业资讯

有哪些有趣的反爬虫机制吗?

fctime.cn 2021-12-04 行业资讯 75 ℃ 0 评论

说下我以前爬某电影评分网站时遇到的反爬机制吧,感觉还挺有趣的反爬虫

数据时遇到的问题首先来说说我在爬数据时遇到的问题反爬虫,看图:

页面上正确显示了评分为9.5,按F12打开调试模式,找到该元素节点时发现显示的是两个框框,再打开源码发现是一串乱码反爬虫

页面数字显示正常反爬虫,在源码中却显示乱码,可以肯定该网站肯定采取了反爬虫机制,有点意思!

爬虫机制原理下面分析一下这个反爬虫机制的原理反爬虫

做过web前端开发的人知道显示框框一般都是由于引用了字体文件引起反爬虫,那么这个网站反爬虫机制会不会跟字体文件有关呢?

刷新一下页面反爬虫,发现一个字体文件的请求:

我们手动将这个字体文件下载下来反爬虫,使用字体编辑工具打开:

虽然我不是太懂字体文件的原理,但是按我的理解其实就是一个字符和数字关系映射文件,例如字符E282对应数字9、字符F11B对应数字5反爬虫。

现在我们再来看一下源码里的乱码:

有哪些有趣的反爬虫机制吗? 行业资讯

有没有看出什么端倪反爬虫?

是的反爬虫,它们并不是什么乱码,而是而字体文件里的字符一一对应的!


根据对应关系可以推断出乱码“.”对应数字9.5,正好和页面上显示的是一致的反爬虫。

总结这个反爬虫机制的现象是页面显示数字正常,但是源码里显示乱码;这个反爬虫机制的工作原理就是通过字体文件将乱码和数字建立好映射关系反爬虫。

本文标签:爬虫哪些爬虫

版权说明:如非注明,本站文章均为 精准采集官网 原创,转载请注明出处和附带本文链接

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

搜索
«    2022年5月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
标签列表
最新留言
友情链接
  • 精准采集APP,精准人脉大师
  • 订阅本站的 RSS 2.0 新闻聚合
Copyright © 2016-2021 fctime.cn 精准采集 DJY团队. Powered By Z-Blog,xpjco@foxmail.com Some Rights Reserved.
精准采集   精准客源

赞助广告×