前军教程网

中小站长与DIV+CSS网页布局开发技术人员的首选CSS学习平台

爬虫有哪些离谱的反爬机制(常见反爬虫技术)

爬虫与反爬就像两个斗法的人,往往道高一尺魔高一丈,一方想要获取信息,一方想要阻止信息被获取。在这过程中就诞生了一些杀敌一千自损八百、脑洞大开的反爬机制,下面就来盘点一下。

1.Referer来源鉴别。通过HTTP请求中的Referer字段可以识别当前请求是由哪个链接跳转而来,这确实可以防止爬虫凭空发起请求,但是对于正常用户右键在新窗口中打开该链接,也会被误判为爬虫,严重影响用户体验。

2.CSS下毒。这招确实够狠辣,通过CSS的一些特性隐藏了部分HTML代码,普通用户在打开浏览器正常访问页面时,由于加载了CSS所以并不会发现异常。但是爬虫只关心HTML,并不会去抓取JS和CSS代码,导致这部分HTML并没有被CSS隐藏,而是被爬虫获取,这段代码可以是一堆乱码加重分析的难度,也可以是一段攻击的代码等等,不亚于一颗定时炸弹。当然放任这些危险的HTML在页面中难免也会误伤普通用户,可谓是神仙斗法、凡人遭殃。

那么大家在使用爬虫中又遇到其它哪些离谱的反爬机制呢,欢迎在评论区留言哈~

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言