百度搜索引擎的反抓取是什么意思？

爬虫，全称“网络爬虫”，是一种能够按照一定规则自动抓取万维网上信息的程序或脚本。目前已经进入大数据时代，爬虫成为获取数据不可或缺的方式。做过爬虫的人可能都遇到过。抓取时，该IP会突然被网站屏蔽，因为大部分网站都会设置“反爬虫”措施。

为什么反爬虫？原因其实很简单。第一，爬虫会在短时间内发送大量请求，占用服务器的带宽，影响正常用户的访问。第二，爬虫会轻易爬走网站的大量信息资源，危害用户的隐私和知识产权，这是我们不能容忍的。因此，防止“爬虫入侵”是非常必要的。

常见的反爬虫方法如下:

1.根据访问频率判断是否是爬虫。

每台电脑上网时都有一个唯一的IP，这台电脑访问网站时会记录下这个IP。如果这个IP访问的频率过快，远远超过一个正常人的访问频率，就会被识别为爬虫。用代理IP替换不同的IP，对方网站每次都以为是新用户，没有黑掉的风险。如果工作量大，爬取速度快，目标服务器会比较容易找到，所以爬取之前需要使用IP的代理IP。IpIDEA包含的全球IP资源足以满足爬虫的需求。

2.根据头部判断是否为爬行动物。

当我们使用浏览器访问一个网站时，浏览器会自动在访问请求上生成标题。内容主要包括浏览器版本、采用的编码方式、使用的操作系统等信息，但爬虫一般不会附上这些信息，所以可以识别。

3.动态页面反爬虫。

静态页面由HTML代码生成，页面内容也相应固定。动态页面是脚本语言生成的，有些内容需要运行一些脚本才能看到。在访问动态页面时，有些内容需要一些特定的操作才能显示，比如点击、输入验证码等，增加了抓取的难度，简单的爬虫就会被淘汰。