什么是robots协议?为什么叫做君子协议?
作者:ssswwww | 发布时间:
大家在使用爬虫的时候有没有注意过,是不是所有东西我们都能爬取呢?肯定不是的,如果爬取某些不能爬取的,那可能违法了呢。robots协议就是告诉搜索引擎什么可以爬,什么东西不能爬,robots协议是约定俗成的协议,不过他不能强制执行,它只能告诉搜索引擎,所以又有君子协议的名称,能防君子不防小人。怎么查看robots协议呢?这里以猪猪网站为例
https://www.pigsec.cn/robots.txt

disallow显示的是不能爬取,allow的是可以爬取的,但是,如果某些重要的东西写在了robots网页,你还能让用户看到的话,君子就没什么,还能提交给你,小人可能会利用这个漏洞对你的网站搞破坏。并不是每个网站都有robots协议的喔,但是,身为君子的我们在进行网站爬取时一定要记得查看网站的robots协议.