Python 爬虫中遇到的反爬虫问题

源网站一般会有下面几种限制 1、一定时间内单个IP访问次数,一个正常用户访问网站,除非是随意的点着玩,否则不会在一段持续时间内过快访问一个网站,持续时间也不会太长,我们可以采用大量不规则代理ip形成一个线程池,随机从代理池中选择代理,模拟访问。代理有两种,透明代理和匿名代理。

2、一定时间内单个账号访问次数,如果一个人一天24小时都在访问一个数据接口,而且速度非常快,那就有可能是机器人。我们可以采用大量行为正常的账号,行为正常就是普通人怎么在社交网站上的操作,并且单位时间内,访问url数目尽量减少,可以每次访问中间间隔一段时间,这段时间可以是一个随机量,即每次访问完一个url,随机睡眠一段时间,在接着访问下一个url。

3、如果能把账号和ip的访问策略控制好,就可以了当然对方网站也会有运维需要调整策略,敌我双方的一次较量,爬虫必须要感知到对方的反盗控将会对我们有影响,通知管理员及时处理。其实最理想的是能够通过机器学习,智能的实现反盗控制,实现不间断抓取