赶集网反爬虫策略浅析

赶集网反爬就一招----限速访问。单IP单线程需要保持在小于2.4次/秒的访问速度,超出了之后会弹赶集的反爬页面,传说中的【墙】。赶集网反爬就一招----限速访问。单IP单线程需要保持在小于2.4次/秒的访问速度,超出了之后会弹赶集的反爬页面,传说中的【墙】。

PC版:

PC版

3G手机版:

手机版

出现后,你必须在使用requests【以Python的requests模块为例说明】的get/post方法时加入cookie方可再次访问。

在本机从来没有访问过赶集的站点情况下,你最多不带cookie值单IP单线程访问54次左右。

之后就不行了。

之前不带cookie值,做延时(time.sleep(随机数))访问单IP10个线程访问可以到上万次(每个线程可以访问1000+)。

所以,基于以上分析:

  1. 最好在你请求的时候带上cookie值,手动维护一个cookie池
  2. 做延时访问,最好3+秒
  3. 尝试使用代理IP

第3点也是我正在尝试的方法。

透露一下我现在的情况:爬敌七千,被墙七万!这些是9个小时的时段数据,不说全天的数据了。

注意点:一定要知道哪些地方是被墙掉而没有爬的,very important!!!