反爬虫策略

近期爬虫程序遇到的反爬虫方式小结:

1.网页数据通过压缩方式传输,直接解析页面会出现乱码现象,是爬虫程序抓取不到正常的文本信息。

2.通过请求频率,对于访问频率过快的请求,跳转到手动输入验证码页面,使抓取不到正常页面。

3.通过增加中间跳转页面,301请求状态居多,限制爬虫程序访问该页面。

4.请求网页,服务器端验证请求头,包含特定cookie值,才返回正常的页面数据,否则,跳转到无数据页面,使爬虫抓不到正常的网页信息。

5.记录访问该网站的ip地址,通过请求频率限制该ip频繁请求服务器数据,使爬虫不能实时抓取有效信息。