jordanpotti/CloudScraper
GitHub: jordanpotti/CloudScraper
一款通过爬取网页源码自动发现 AWS、Azure、Digital Ocean 等云存储资源的侦察工具。
Stars: 532 | Forks: 112

#### CloudScraper 是一个用于对目标进行爬取和抓取以搜索云资源的工具。输入一个 URL,它将爬取页面并在爬取到的页面源码中搜索诸如 's3.amazonaws.com'、'windows.net' 和 'digitaloceanspaces' 的字符串。目前支持 AWS、Azure、Digital Ocean 的资源。
#### [@ok_bye_now](https://twitter.com/ok_bye_now)
## 前置条件
非标准 Python 库:
* requests
* rfc3987
* termcolor
使用 Python 3.6 创建
## 简介
该工具的灵感来源于 [Bryce Kunz](https://twitter.com/TweekFawkes) 最近的一次演讲。演讲 [Blue Cloud of Death: Red Teaming Azure](https://speakerdeck.com/tweekfawkes/blue-cloud-of-death-red-teaming-azure-1) 介绍了一些除常见的 S3 Buckets 之外,鲜为人知的常见信息泄露情况。
## 用法:
```
usage: CloudScraper.py [-h] [-v] [-p Processes] [-d DEPTH] [-u URL] [-l TARGETLIST]
optional arguments:
-h, --help show this help message and exit
-u URL Target Scope
-d DEPTH Max Depth of links Default: 5
-l TARGETLIST Location of text file of Line Delimited targets
-v Verbose Verbose output
-p Processes Number of processes to be executed in parallel. Default: 2
--no-verify Skip TLS verification
example: python3 CloudScraper.py -u https://rottentomatoes.com
```
## 待办事项
- [ ] 添加关键词自定义
## 杂项
要添加关键词,只需将其添加到 parser 函数的列表中即可。
## 贡献
分享即关爱!欢迎提交 Pull Request,非常希望看到诸如增加更多检测支持、多线程等功能 :)
## 缘由
实际上 Bryce Kunz 曾制作过一个功能类似的工具,但它使用了 scrapy,而我想构建一个不依赖 Python2 或任何诸如 scrapy 等爬取模块的自制工具。我最终确实使用了 BeautifulSoup 来解析 href 链接,但这仅用于爬取功能。因此,CloudScraper 诞生了。使用原生正则表达式而不是解析 href 链接的好处是,很多时候这些链接并不包含在 href 链接中,它们可能被掩埋在 JS 或其他各种位置。CloudScraper 抓取整个页面并使用正则表达式查找链接。这也有其缺陷,比如抓取过多或过少,但至少我们知道我们涵盖了基础范围 :)
标签:AWS, Azure Blob, BeEF, Digital Ocean, DNS枚举, DPI, ESC4, OSINT, Python, S3 Bucket, Splunk, URL抓取, 云资源枚举, 数据展示, 数据抓取, 无后门, 爬虫, 瑞士军刀, 目标探测, 红队, 网络安全工具, 逆向工具