首页 > 资源下载 > SEO优化正文

米蓝资源论坛：如何屏蔽蜘蛛对网站的不必要抓取！

小编 SEO优化

2020-03-18

要知道在SEO优化的过程当中，有时候是需要对搜索引擎蜘蛛进行屏蔽的，就是禁止对网站的某个地方进行抓取，那么我们应该如何屏蔽搜索引擎蜘蛛呢？下面我们一起来看一看具体的操作方法。

百度蜘蛛抓取我们的网站，希望我们的网页能被包含在它的搜索引擎中。将来，当用户搜索时，它会给我们带来一定量的搜索引擎优化流量。当然，我们不想让搜索引擎抓取所有东西。

因此，此时我们只希望能够抓取搜索引擎搜索到的内容。例如，用户的隐私和背景信息不希望搜索引擎被捕获和包含。解决这些问题有两种最佳方法，如下所示:

robots协议文件屏蔽百度蜘蛛抓取

robots协议是放在网站根目录下的协议文件，可以通过网址(网址:https://www.seohet.com/robots.txt)访问，当百度蜘蛛抓取我们的网站时，它会先访问这个文件。因为它告诉蜘蛛哪些能抓，哪些不能。

robots协议文件的设置比较简单，可以通过User-Agent、Disallow、Allow这三个参数进行设置。

User-Agent：对不同搜索引擎的声明；

Disallow：不允许抓取的目录或页面；

Allow：被允许抓取的目录或页面通常可以省略或不写，因为如果你不写任何不能抓取的东西，它就可以被抓取。

下面我们来看一个示例，场景是我不希望百度抓取我网站所有的css文件，data目录、seo-tag.html页面

User-Agent:BaidusppiderDisallow:/*.cssDisallow:/data/Disallow:/seo/seo-tag.html

如上所述，user-agent声明了蜘蛛的名称，这意味着它针对的是百度蜘蛛。以下内容无法获取＆quot;/*。css＆quot;，首先/指的是根目录，这是您的域名。*是代表任何内容的通配符。这意味着无法抓取以.css结尾的所有文件。这是你自己的两个经历。逻辑是一样的。

通过403状态码，限制内容输出，屏蔽蜘蛛抓取

403状态代码是http协议中的网页返回状态代码。当搜索引擎遇到403状态代码时，它知道这些页面受权限限制。我无法访问它。例如，如果您需要登录才能查看内容，搜索引擎本身将无法登录。如果您返回403，他也知道这是权限设置页面，无法读取内容。当然，它不会被包括在内。

返回403状态代码时，应该有一个类似于404页面的页面。提示用户或蜘蛛执行他们想要访问的内容。两者都是不可或缺的。您只有提示页面，状态代码返回200，这是百度蜘蛛的大量重复页面。有403个状态代码但返回不同的内容。这也不是很友好。

最后，对于机器人协议，我想补充一点：“现在，搜索引擎将通过网页的布局和布局来识别网页的用户友好性。如果阻止css文件和js文件相关到布局，然后搜索引擎我不知道你的网页布局是好是坏。因此不建议阻止这些内容来自蜘蛛。

好的，今天的分享在这里，我希望对你有所帮助，当然，上面的两个设置对除了百度蜘蛛之外的所有蜘蛛都有效。安装时要小心。

加入收藏打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

1. 本站所有资源来源于用户上传和网络，因此不包含技术服务请大家谅解！如有侵权请邮件联系客服！
2. 本站不保证所提供下载的资源的准确性、安全性和完整性，资源仅供下载学习之用！如有链接无法下载、失效或广告，请联系客服处理！
3. 您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容资源！如用于商业或者非法用途，与本站无关，一切后果请用户自负！
4. 如果您也有好的资源或教程，您可以投稿发布，成功分享后有C币奖励和额外收入！

首页 > 资源下载 > SEO优化米蓝资源论坛：如何屏蔽蜘蛛对网站的不必要抓取！ https://bbs.temilan.com/zaixianxuexi/703.html