timokoessler/easy-waf-data
GitHub: timokoessler/easy-waf-data
提供易用 WAF 所需的爬虫 IP 白名单数据,解决假爬虫识别与性能优化问题。
Stars: 3 | Forks: 0
# 易用 WAF 数据
本仓库提供 Web 应用程序防火墙 [EasyWAF](https://github.com/timokoessler/easy-waf) 使用的数据。
每 12 小时,GitHub Action 会抓取搜索引擎爬虫及其他大型平台爬虫的 IP 地址范围白名单,并存储在本仓库中。该列表用于 Easy WAF 的“假爬虫”模块,以拦截假爬虫。如需了解更多关于 WAF 的信息,请访问 [EasyWAF 仓库](https://github.com/timokoessler/easy-waf)。
大多数爬虫的真实性可以通过反向 DNS 查询来确定,但额外的 IP 白名单可以提高性能。此外,某些爬虫(如 Facebook 爬虫)的真实性只能通过 IP 来判断。
**但为什么 IP 范围列表不由 EasyWAF 本地生成?**
主要原因是 BGP 路由表分析的下载需要一些时间,尤其是在网络连接较差的情况下。如果应用程序以并行方式多次启动(例如 Node.js 集群模式),这种影响会被放大。此外,无需更新 EasyWAF 即可更快地应对所使用数据源的变更。
**为什么这不是安全问题?**
这些数据仅用于假爬虫模块的白名单,因此添加恶意 IP 并不能绕过这些 IP 地址的 WAF 防护。此数据源的中断或故障目前只会导致 Facebook 爬虫出现问题,并略微降低 EasyWAF 的性能。
## 数据源
### Google
- 文档:[检查 Googlebot 及其他 Google 爬虫](https://support.google.com/webmasters/answer/80553)
- JSON 直接链接:[Google IP 范围](https://www.gstatic.com/ipranges/goog.json)
### Bing
- JSON 直接链接:[Bing IP 范围](https://www.bing.com/toolbox/bingbot.json)
### Facebook
- 文档:[Facebook 爬虫](https://developers.facebook.com/docs/sharing/webmasters/crawler/)
- IP 范围从 BGP 路由表分析中抓取
### Twitter
- 文档:[Twitterbot](https://developer.twitter.com/en/docs/twitter-for-websites/cards/guides/troubleshooting-cards)
- IP 范围从 BGP 路由表分析中抓取
### DuckDuckGo
- 文档:[DuckDuckBot 与 DuckDuckGo 有关吗?](https://raw.githubusercontent.com/duckduckgo/duckduckgo-help-pages/master/_docs/results/duckduckbot.md)
### Pinterest
- 文档:[Pinterest 爬虫](https://help.pinterest.com/en/business/article/pinterest-crawler)
### BGP 路由表分析
- 网站:[BGP 路由表分析](https://thyme.apnic.net/)
- IPv4 前缀直接链接:[IPv4 前缀](https://thyme.apnic.net/current/data-raw-table)
- IPv6 前缀直接链接:[IPv6 前缀](https://thyme.apnic.net/current/ipv6-raw-table)
## 联系方式
如果公开 GitHub 问题或讨论不适合您的关注点,您可以与我直接联系:
- 电子邮件:[inf***@timokoessler.de](mailto:info@timokoessler.de)
- 我的网站:[timokoessler.de](https://timokoessler.de)
标签:AppImage, BGP路由分析, Bingbot, EasyWAF, Facebook爬虫, GitHub Action, Googlebot, Homebrew安装, IP白名单, IP范围, WAF, Web应用防火墙, 反向DNS, 安全合规, 定时任务, 开源库, 性能优化, 搜索引擎爬虫, 数据更新, 数据来源, 检测绕过, 爬虫识别, 网络代理, 网络威胁情报, 自动化攻击