【爬虫-反爬虫】系列一:-尾篇(7)

尾篇(7) 写到这里,本专题可以告一段落了,如果你理解了之前的文章且认真实践过,相信绝大多数网站的数据都能爬取下来。

闲聊部分

为了让更多新手小白们阅读起来不吃力,本专题文笔刻意通俗,很多概念也有意的多次重复提及,且章节间联系紧密,对于新手来说,建议完整看一遍。

虽然近些年手机app的普及造成许多数据的封闭性,难以爬取,但web上依旧有许多高价值数据,找准定位,利用爬虫提取出有价值的数据,能代替不少人力成本。

其次,本专题并没有教你如何去分布式,集群的处理数据管理,因为这些概念并不是爬虫独有的,它们是一种解决策略:如何将一个大问题分解为多个小问题。比如数据量太大需要分布处理,请求太多需要分布处理。不同场景下解决方案各有差异,但本质是也是换汤不换药。

本专题更多的是介绍怎么获取到网络数据,因为只有在能获取到数据的前提下,才有资格谈后面的事。

后话

在现实场景中,反爬虫策略往往是多种齐上,互相混合,这取决于网站公司的注重程度。

对于反爬虫策略,还有一些常规手段,比如封IP:限制单个IP在一定时间内的访问次数,超过后就禁止其访问。这并不难解决,类似于验证码,有专门的第三方平台提供优质代理IP资源,当然,也可以自己去获取此类资源,只是稍微麻烦点,稳定性也没有收费版本的高。

有些网站也会检查http请求头(如user-agent,reference等),解决方法也很简单,只需发送请求的时候手动设置好header即可。

关于反爬虫,未来的策略会越来越多,当我发现好的思路后会不定期更新本专题。如果你有好的建议或经历,也不妨提出来~