爬虫与反爬就像两个斗法的人,往往道高一尺魔高一丈,一方想要获取信息,一方想要阻止信息被获取。在这过程中就诞生了一些杀敌一千自损八百、脑洞大开的反爬机制,下面就来盘点一下。
1.Referer来源鉴别。通过HTTP请求中的Referer字段可以识别当前请求是由哪个链接跳转而来,这确实可以防止爬虫凭空发起请求,但是对于正常用户右键在新窗口中打开该链接,也会被误判为爬虫,严重影响用户体验。
2.CSS下毒。这招确实够狠辣,通过CSS的一些特性隐藏了部分HTML代码,普通用户在打开浏览器正常访问页面时,由于加载了CSS所以并不会发现异常。但是爬虫只关心HTML,并不会去抓取JS和CSS代码,导致这部分HTML并没有被CSS隐藏,而是被爬虫获取,这段代码可以是一堆乱码加重分析的难度,也可以是一段攻击的代码等等,不亚于一颗定时炸弹。当然放任这些危险的HTML在页面中难免也会误伤普通用户,可谓是神仙斗法、凡人遭殃。
那么大家在使用爬虫中又遇到其它哪些离谱的反爬机制呢,欢迎在评论区留言哈~