MFMokbel/Crawlector

GitHub: MFMokbel/Crawlector

Crawlector 是一个基于 C++ 和 Yara 引擎的威胁搜寻框架，通过爬取网站内容并利用规则扫描、哈希比对及恶意情报查询来发现潜在的恶意网络对象。

Stars: 124 | Forks: 10

# Crawl*e*ctor Crawlector（这个名字 Crawlector 是 **Crawl***er*（爬虫）和 *Det***ector***（检测器）的组合）是一个旨在扫描网站恶意对象的威胁搜寻框架。 **注-1**：该框架于 2022 年 10 月 22 日在意大利贝加莫举行的 [No Hat](https://www.nohat.it/2022/talks) 会议上首次发布（[幻灯片](https://www.nohat.it/2022/static/slides/crawlector.pdf)，[YouTube 录像](https://youtu.be/-9bupVXHo5Y))。此外，它还于 2022 年 12 月 2 日在新加坡举行的 [AVAR](https://aavar.org/cybersecurity-conference/index.php/crawlector-a-threat-hunting-framework/) 会议上进行了第二次发布。 **注-2**：演讲中提到的配套工具 [EKFiddle2Yara](https://github.com/MFMokbel/EKFiddle2Yara)（*是一个接收 EKFiddle 规则并将其转换为 Yara 规则的工具*）也在这两次会议上发布。 **注-3**：2.0 版本（Photoid Build:180923），一个里程碑版本，已于 2023 年 9 月 18 日发布。 **注-4**：2.1 版本（Universe-647 Build:031023）已于 2023 年 10 月 03 日发布。主要新增了 Slack 告警通知功能。 **注-5**：2.2 版本（Hallstatt Build:051123）已于 2023 年 11 月 05 日发布。主要新增了 Slack 远程控制功能。 **注-6**：2.3 版本（Munich Build:241123）已于 2023 年 11 月 24 日发布。主要新增了 DNS 服务器功能。 **注-6**：2.3.1 版本 {Nero Build:131225} 已于 2025 年 12 月 13 日发布。这是一个维护版本。 # 功能特性 - 支持爬取网站以查找用于扫描的额外链接（最多 2 层） - 集成 Yara 作为规则扫描的后端引擎 - 支持在线和离线扫描 - 支持爬取域名/站点的数字证书 - 支持查询 URLhaus 以查找页面上的恶意 URL - 深度对象提取（DOE） - Slack 告警通知 - 对 HTTP 重定向的参数化支持 - 检索 Whois 信息 - 支持使用 [TLSH (Trend Micro Locality Sensitive Hash)](https://github.com/trendmicro/tlsh) 以及其他标准加密哈希函数（如 md5, sha1, sha256 和 ripemd128 等）对页面内容进行哈希计算 - 如果页面大小小于 50 字节，或者数据中不存在足够的随机性，TLSH 将不会返回值 - 支持查询每个 URL 的评级和类别 - 支持通过尝试查找相同域名的所有可用顶级域名（TLD）和/或子域名来扩展给定站点 - 此功能使用 [Omnisint Labs](https://omnisint.io/) API（该站点截至 2023 年 3 月 10 日已下线）和 RapidAPI APIs - TLD 扩展实现是原生的 - 此功能连同评级和分类功能一起，提供了查找原始域名的诈骗/钓鱼/恶意域名的功能 - 支持域名解析（IPv4 和 IPv6） - 保存已扫描的网站页面以供后续扫描（可以保存为 zip 压缩格式） - 框架的所有设置均通过一个可定制的配置文件进行控制 - 所有扫描会话都保存到一个结构良好的 CSV 文件中，其中包含有关被扫描网站的大量信息，以及有关已触发的 Yara 规则的信息 - 许多其他功能... - 所有 HTTP(S) 通信都支持代理 - 单个可执行文件 - 使用 C++ 编写 # URLHaus 扫描与 API 集成这是为了检查每个正在扫描的页面是否存在 [恶意 URL](https://urlhaus.abuse.ch/downloads/text/)。框架可以从 URLHaus [服务器](https://urlhaus.abuse.ch/downloads/text/) 查询恶意 URL 列表（*配置*：url_list_web），或者从磁盘上的文件查询（*配置*：url_list_file），如果指定了后者，则后者优先于前者。其工作原理是搜索每个页面的内容，对照 url_list_web 或 url_list_file 中的所有 URL 条目，检查所有出现的情况。此外，如果匹配成功，并且配置选项 check_url_api 设置为 true，Crawlector 将向 url_api 配置选项中设置的 API URL 发送 POST 请求，该请求返回一个包含有关匹配 URL 的额外信息的 JSON 对象。此类信息包括 urlh_status（例如，online, offline, unknown）、urlh_threat（例如，malware_download）、urlh_tags（例如，elf, Mozi）和 urlh_reference（例如，https://urlhaus.abuse.ch/url/1116455/）。仅当 check_url_api 设置为 true 时，此信息才会包含在日志文件 cl_mlog_<*current_date*>_<*current_time*>_<(pm|am)>.csv 中（见下文）。否则，日志文件将包含列 urlh_url（匹配的恶意 URL 列表）和 urlh_hit（每个匹配的恶意 URL 的出现次数），这取决于 check_url 是否设置为 true。可以通过将配置选项 check_url 设置为 false 来完全禁用 URLHaus 功能。需要注意的是，考虑到需要检查大量的 [恶意 URL](https://urlhaus.abuse.ch/downloads/text/)（撰写本文时约有 1.3 亿个条目）以及从 URLHaus 服务器获取额外信息所需的时间（如果选项 check_url_api 设置为 true），此功能可能会减慢扫描速度。 # 文件和文件夹结构 1. \cl_sites + 这里存储要访问或爬取的站点列表。 + 支持多个文件和目录。 2. \crawled + 所有已爬取/已爬行 URL 保存到文本文件的位置。 3. \certs + 所有域名/站点的数字证书存储的位置（以 .der 格式）。 4. \results + 已访问网站的保存位置。这可以通过选项 **results_dir** 进行配置 5. \pg_cache + 不属于 spider 功能的站点的程序缓存。这可以通过选项 **cache_dir** 进行配置，位于 **[default]** 部分。 6. \cl_cache + 属于 spider 功能的站点的爬虫缓存。这可以通过选项 **cache_dir** 进行配置，位于 **[spider]** 部分。 7. \yara_rules + 这是存储所有 Yara 规则的地方。此目录中存在的所有规则都将由引擎加载、解析、验证和评估。 8. cl_config.ini + 此文件包含可以调整以影响框架行为的所有配置参数。 9. cl_mlog_<*current_date*>_<*current_time*>_<(pm|am)>.csv + 包含有关已访问网站大量信息的日志文件 + 日期、时间、Yara 扫描状态、触发的 Yara 规则列表（包含每个匹配的偏移量和长度）、id、URL、HTTP 状态码、连接状态、HTTP 头、页面大小、磁盘上已保存页面的路径，以及与 URLHaus 结果相关的其他列。 + 文件名每个会话都是唯一的。 10. cl_offl_mlog_<*current_date*>_<*current_time*>_<(pm|am)>.csv + 包含有关离线扫描文件信息的日志文件。 + 触发的 Yara 规则列表（包含匹配的偏移量和长度）以及磁盘上已保存页面的路径。 + 文件名每个会话都是唯一的。 11. cl_certs_<*current_date*>_<*current_time*>_<(pm|am)>.csv + 包含有关发现的数字证书大量信息的日志文件 12. \expanded\exp_subdomain___.txt + 包含发现的子域名（属于 [site] 部分） 13. \expanded\exp_tld___.txt + 包含发现的域名（属于 [site] 部分） # 配置文件 (cl_config.ini) 在运行任何会话之前，您必须熟悉配置文件 cl_config.ini。所有部分和参数都在配置文件本身中进行了记录。 Yara 离线扫描功能是一个独立选项，这意味着，如果启用，Crawlector 将仅执行此功能，而不管其他启用的功能如何。同样，爬取域名/站点数字证书功能也是如此。无论哪种情况，都建议您在配置文件中禁用所有未使用的功能。 - 根据配置设置（`log_to_file` 或 `log_to_cons`），如果 Yara 规则仅引用模块的属性（例如 PE, ELF, Hash 等），则 Crawlector 在匹配时将仅显示规则的名称，不包括偏移量和长度数据。 **注意**：对于任何需要路径的选项，请始终提供**绝对路径**。 # 站点格式模式要访问/扫描网站，URL 列表必须存储在“cl_sites”目录中的文本文件中。 Crawlector 接受三种类型的 URL： 1. 类型 1：每行一个 URL + Crawlector 将为每个 URL 分配一个唯一的名称，该名称源自 URL 主机名 2. 类型 2：每行一个 URL，带有一个唯一的名称 `[a-zA-Z0-9_-]{1,128} = ` 3. 类型 3：对于 spider 功能，使用一种唯一的格式。每行一个 URL 如下所示： `[`**depth**`:<0|1>-><\d+>,`**total**`:<\d+>,`**sleep**`:<\d+>] = ` 例如， `mfmokbel[depth:1->3,total:10,sleep:0] = https://www.mfmokbel.com` 这等同于： `mfmokbel[d:1->3,t:10,s:0] = https://www.mfmokbel.com` 其中，` := [a-zA-Z0-9_-]{1,128}` **depth**、**total** 和 **sleep** 也可以分别替换为其简写版本 **d**、**t** 和 **s**。 - **depth**：spider 支持深入两层以查找额外的 URL（这是一个设计决定）。 - 值 0 表示深度为 1 级，忽略“->”之后的值。 - 1 级深度由 total 参数控制。因此，首先，spider 会尝试从指定的 URL 中查找尽可能多的额外 URL。 - “->”之后的值表示为根据 **total** 参数值找到的每个 URL 爬取的最大 URL 数量。 - 值 1 表示深度为 2 级，“->”之后的值表示为根据 **total** 参数找到的每个 URL 要查找的最大 URL 数量。为了澄清，如上面的示例所示，首先，spider 将查找 10 个 URL（如 **total** 参数中所指定），然后，这些找到的 URL 中的每一个都将被爬取最多 3 个 URL；因此，在最佳情况下，我们将最终得到 `40 (10 + (10*3))` 个 URL。 - **sleep** 参数采用一个整数值，表示每次 HTTP 请求之间休眠的毫秒数。 **注意 1**：通过在配置文件的 spider 部分将配置参数 live_crawler 设置为 false，可以将类型 3 的 URL 转换为类型 1 的 URL。 **注意 2**：空行以及以“;”、“#”或“//”开头的行将被忽略。 # Spider 功能 Spider 功能赋予了 Crawlector 在目标页面上查找额外链接的能力。Spider 支持以下功能： - 域名必须是 `Type 3` 类型才能使 Spider 功能工作 - 您可以通过 `exclude_url` 配置选项指定一个通配符模式列表（以管道分隔），以防止爬取匹配的 URL。例如，`*.zip|*.exe|*.rar|*.zip|*.7z|*.pdf|.*bat|*.db` - 您可以通过 `include_url` 配置选项指定一个通配符模式列表（以管道分隔），以仅爬取匹配该模式的 URL。例如，`*/checkout/*|*/products/*` - 您可以通过配置选项 `exclude_https` 排除 HTTPS URL - 对于主页，您也可以通过配置选项 `add_ext_links` 考虑出站/外部链接。此功能遵守 `exclude_url` 和 `include_url` 配置选项。 - 您可以通过配置选项 `ext_links_only` 仅考虑主页的出站/外部链接，排除所有其他 URL。此功能遵守 `exclude_url` 和 `include_url` 配置选项。 # ID 类型在 2.0 版本中，ID 的类型通过将以下类型之一附加到 ID 本身来显式分配： | **id_postfix (类型)** | **描述** | | --------------------- | ---------------------------------------------------------- | | \_t1\_p | 类型 1 纯文本，无 id | | _sd | 子域名的子类型 | | _tld | tld 的子类型 | | \_t2\_p | 带有 id 的类型 2 纯文本 | | \_t3\_s | 类型 3 已爬取域名 | | \_t3\_sc |带有子节点的类型 3 已爬取域名 | | \_t3\_ss | 类型 3 当类型 3 (_t3_s) url 转换为类型 1 url 时 | | \_t3\_s\_e | 类型 3 已爬取域名的出站链接 | | \_obj\_ | 用于深度扫描和对象提取 | | \_t4\_ru | 用于重定向 url（适用于所有类型） | 让每个 id 都带有其类型，可以更轻松地浏览和筛选结果。此外，这在内部用于各种原因。 # 站点排名功能 - 这是用于检查网站排名的 - 您提供一个包含网站列表及其排名的 CSV 格式文件 - 提供网站排名列表的服务包括 Alexa top-1m（已于 2022 年 5 月停止服务）、[Cisco Umbrella](https://umbrella-static.s3-us-west-1.amazonaws.com/index.html)、[Majestic](https://majestic.com/reports/majestic-million)、Quantcast、Farsight 和 [Tranco](https://tranco-list.eu/) 等 - CSV 文件格式（仅 2 列）：第一列保存排名，第二列保存域名 - 如果单元格包含带引号的数据，将自动去除引号 - 引号文本中不允许换行 - 读取的单元格将去除前导和尾随空格 - 空行和注释行将被跳过 - 配置文件中的 `site_ranking` 部分提供了一些选项来更改读取 CSV 文件的方式 - 此查询的性能取决于 CSV 文件中的记录数 - Crawlector 将 CSV 文件中的每个条目与正在调查的域名进行比较，而不是相反 - 仅比较注册/付费级域名 # 查找 TLD 和子域名 - [site] 部分 - `site` 部分提供了通过尝试查找相同域名的所有可用顶级域名（TLD）和/或子域名来扩展给定站点的功能。如果找到，新的 TLD/子域名将像任何其他域名一样被检查 - 此功能使用 Omnisint Labs (https://omnisint.io/) 和 RapidAPI APIs - Omnisint Labs API 返回子域名和 TLD，而 RapidAPI 仅返回子域名（截至 2023 年 3 月 10 日，Omnisint Labs API 已下线；但是，该实现仍然可用，以防该站点恢复上线） - 对于 RapidAPI，您需要一个有效的 "Domains records" API 密钥，您可以从 RapidAPI 请求该密钥，并将其插入配置文件中的 `rapid_api_key` 键 - 启用 `find_tlds` 后，除了 Omnisint Labs API tld 结果外，框架还通过遍历 `tlds_file` 或 `tlds_url` 中的每个 tld 条目来尝试查找其他活动/注册的域名 - 如果设置了 `tlds_url`，它应指向托管 tld 的 URL，每个 tld 占一行（以字符 ';'、'#' 或 '//' 开头的行将被忽略） - `tlds_file` 保存包含 tld 列表的文件名（与 `tlds_url` 相同；仅存在 tld，不包括 '.'，例如，"com"、"org"） - 如果设置了 `tlds_file`，它将优先于 `tlds_url` - `tld_dl_time_out`，这是为了在尝试检查相关域名是否解析时设置 dnslookup 函数的最大超时时间 - `tld_use_connect`，此选项启用通过 `tlds_connect_ports` 选项中定义的端口列表连接到相关域名的功能 - 选项 `tlds_connect_ports` 接受端口列表（以逗号分隔）或范围列表，例如 25-40,90-100,80,443,8443（范围开始和结束是包含在内的） - `tld_con_time_out`，这是为了设置 connect 函数的最大超时时间 - `tld_con_use_ssl`，在尝试连接到域名时启用/禁用 SSL - 如果 `save_to_file_subd` 设置为 true，发现的子域名将保存到 "\expanded\exp_subdomain___.txt" - 如果 `save_to_file_tld` 设置为 true，发现的域名将保存到 "\expanded\exp_tld___.txt" - 如果 `exit_here` 设置为 true，则 Crawlector 在执行此 [site] 功能后将退出，而不管其他启用的选项如何。这意味着发现的站点将不会被爬取/spider # 重定向功能以前版本中的 url 重定向功能已损坏。此版本提供了重定向功能的完全重写，具有高度参数化的控制其操作。在 2.0 版本中，重定向在配置文件中有一个专门的部分，名为 **[redirect]**。可以通过 **[default]** 部分下的选项 **follow_redir** 打开/关闭整个重定向功能。重定向函数检查 HTTP 响应状态码：301、302、303、307 和 308。如果匹配，Crawlector 将解析 Location 头以获取重定向到 URL，同时考虑绝对和相对重定向 URL。Crawlector 中的重定向功能旨在提高性能和敏捷性。**[redirect]** 部分提供以下选项列表： ## [redirect] * depth = all ; (t: string) * max_redirect = 200 ; (t: uint16_t) * visit = true ; (t: bool) * skip_similar = true ; (t: bool) **depth** 选项接受值 **_last_** 或 **_all_**。它控制访问哪些找到的重定向 URL，具体取决于是否启用了 **visit** 选项。**_all_** 用于访问所有找到的重定向 URL。**_last_** 用于访问最后一个重定向 URL。这些 URL 的访问发生在同一/当前会话中。请记住，无论 **depth** 值如何，Crawlector 都会将所有找到的重定向到 URL 的列表连同总数一起以绝对形式记录。它们将被写入 **cl_mlog** CSV 文件中的列 _redirect_urls_ 和 _redirect_total_。选项 **max_redirect** 设置要发现的 URL 重定向总数的上限。选项 **skip_similar** 最好通过以下示例来解释：假设提供给 Crawlector 爬取的原始 URL 是 "https://www.mfa.gov.law"，而找到的 redirect_urls 之一是 "https://mfa.gov.law/"。如您所见，唯一的区别是 URL 末尾的斜杠。这两个 URL 是相同的，服务器将响应相同的页面。如果选项 **visit** 设置为 true，Crawlector 将爬取这两个 URL，从而浪费资源并执行两次相同的任务。对于 1 或 2 个 URL，这可能不是问题，但是，如果您要爬取 1000 个 URL，并且启用了选项 **visit**，那么其中超过一半的 URL 具有此类发现的 URL 的可能性非常高，在这种情况下，这就成为一个需要解决的紧迫问题。因此，将选项 **skip_similar** 设置为 true 将有助于通过跳过访问相似的 URL 来解决此问题。除了 forward_slash 方案外，**skip_similar** 选项还考虑了以下两种情况：如果重定向 URL 仅在前缀 "https://" 和 "www." 中的其中一个或两者上不同。 # 深度对象提取（DOE） 2.0 版本的主要新增功能之一是能够从页面中提取不同类型的对象，将其保存到磁盘，对其执行 Yara 和 URLHaus 扫描，并将结果保存到 CSV 文件。要启用此功能，请在 **[page]** 部分下将选项 **extract_obj** 设置为 true。深度对象提取功能的实现通过从网页创建一个 MHT web 存档文件来工作，包括外部脚本、图像和 CSS 文件。所有嵌入的文件都将被提取到选项 **obj_dir** 指定的路径（路径：**obj\_dir**/**objects**/）中，并对每个文件进行扫描。该实现不应与无头浏览器功能混淆。DOE 是不同的，不涉及加载页面以检索所有动态查询的 URL。因此，它有其局限性。所有提取的对象的部分元数据都将写入 CSV 文件。在阅读 CSV 文件时需要记住的事项：具有提取对象的域名的 ID 具有唯一的格式，如下所示：**\\_\\_p\_obj\_\**（例如，\_mfa\_gov\_cef40bc5-ba6a-41\_t1\_p\_obj\_0\_）。并且，url 将具有以下格式：**\__\**（例如，_https://www.mfa.gov.law\_\_bilmur.min.js_）。如果选项 **delete_obj** 设置为 true，则所有未被 Yara 检测到的提取对象都将从磁盘中删除。如果选项 **log_all_objs** 设置为 true，则将所有提取的对象元数据记录到同一个 cl_mlog CSV 文件中。如果 **[page]** 部分下的选项 **check_urlhaus** 设置为 true，则每个提取的对象都将进行 URLHaus 扫描。请注意，此选项的选项是从 **[urlhaus]** 部分继承的。 **注意**：如果正在爬取的域名重定向到另一个域名，则最后一个重定向到 URL 必须传递给 DOE 才能工作。此外，域名必须以 "**_HTTP(S)://_**" 开头，DOE 才能工作。 # Slack 告警通知有时，您可能需要运行可能需要几天才能完成的 Crawlector 会话，例如，通过爬取前 100 万个 Alexa 网站，对于这种情况，您需要一种方法来远程监控框架的运行和进度。因此，在 2.1 版本中，我添加了 Slack 告警通知功能，通过将 Yara 的告警、_std::exit()_ 事件以及进程警告和错误发送到您选择的 Slack 频道，提供了一种实时监控 Crawlector 执行的机制。除此之外，Crawlector 安装了一个控制台处理程序，试图监控某些事件类型，包括 _ctrl_c_、_ctrl_close_、_ctrl_break_、_ctrl_logoff_ 和 _ctrl_shutdown_。重要的是要记住，Crawlector 不会更改/更改默认处理程序的行为；它只是向 Slack 频道报告接收到任何列出的事件。这可以在未来扩展以考虑其他类型的事件。此功能使用 Slack REST API，并使用 OAuth 2.0 进行服务器身份验证。您需要一个 Slack API 令牌才能使用它，以及一个配置了正确权限的频道。此功能仅向 Slack 频道发布消息，不接收或处理任何传入消息。 **[slack_alert]** 部分提供以下选项列表： ## [slack_alert] * alert = true ; (t: bool) * api_token = ; (t: string) * channel = ; (t: string) * sleep = ; (t: uint32_t) 以毫秒为单位要禁用或启用此功能，只需将选项 **alert** 设置为 _true_ 或 _false_。此外，您需要指定带有**频道**名称的 **api_token**。 **注意-1**：在 Crawlector 的初始化阶段，它会测试提供的身份验证令牌是否有效，或者是否设置了频道，如果失败，此功能将自动禁用。报告给 Slack 频道的所有告警都以用户名 **Crawlector v**\<_version\_number_\> 的形式报告，例如 **Crawlector v2.1**。该用户具有蜘蛛网的图标。此外，所有告警都是线程化的，这意味着第一条开始消息之后的所有后续告警都作为回复发布。这是一个设计决定，有助于您同时运行多个会话，所有会话都向同一频道报告。一些告警使用 markdown 标记语言进行格式化。当进程成功完成并即将退出时，它将发布以下消息： **注意-2**：Slack 对发布消息 API 的速率限制是每秒一条消息，对某些突发有一定的余地。Crawlector 不会对消息进行排队以适应每秒更多的发布。如果需要，这可能会在未来更改；但是，选项 **sleep** 允许进程在每次成功发布消息后休眠指定的时间。 # Slack 远程控制随着 2.2 版本（代号为 *Hallstatt*）的发布，我引入了通过一组专门设计的控制命令远程控制 Crawlector 的功能。引入此功能的原因是为了监控和控制预期运行数小时或数天的会话的某些行为。例如，您可能想要打开/关闭 Slack 告警功能、终止 Crawlector 和上传配置文件等。此功能使用 Slack REST API，并使用 OAuth 2.0 进行服务器身份验证。您需要一个 Slack API 令牌才能使用它，以及一个配置了正确权限的频道。API 令牌与 **[slack_alert]** 部分中选项 **api_token** 使用的令牌相同。 **[slack_alert]** 部分为远程控制功能提供了以下额外选项列表： ## [slack_alert] (control options) * control = true ; (t: bool) * ctrl_channel = ; (t: string) 它必须是频道 ID 而不是频道名称 * ctrl_sleep = ; (t: uint32_t) 以毫秒为单位要禁用或启用此功能，只需将选项 **control** 设置为 _true_ 或 _false_。**ctrl_channel**必须是频道 ID 名称，而不是频道名称。您可以通过右键单击频道名称 -> 查看频道详情 -> 向下滚动到窗口底部，您将看到频道 ID: \ 字段来获取它。选项 **ctrl_sleep** 决定调用 **ctrl_channel** 选项中指定的控制频道以检索控制命令的频率。您还可以通过控制命令 **cl_update_delay \** 更新此选项。支持的控制命令列表如下： | 控制命令 | 描述 | | ------------------------------------------------------------ | ----------------------------------------------------------------------------------- | | **cl_get_date** | 检索 Crawlector 启动的日期和时间以及当前的日期和时间。 | | **cl_ping** | 发回消息 "**Pong...**"。这是为了检查 C&C 频道是否正常工作。 | | **cl_get_config** | 将当前使用的配置（例如，cl_config.ini）文件作为文本文件上传。 | | **cl_update_delay** | 更新每次拉取请求控制命令之间的检查间隔时间。

- 仅更改当前会话的值 (ctrl_sleep)。 | | **cl_turn_off_slack_alert** | 为当前活动会话关闭 Slack 告警功能。 | | **cl_turn_on_slack_alert** | 为当前活动会话打开 Slack 告警功能 | | **cl_help** | 列出此帮助消息。 | | **cl_exit** | 强制终止 Crawlector。 | **注意-1**：在 Crawlector 的初始化阶段，它会测试提供的身份验证令牌是否有效，或者是否设置了频道，如果失败，此功能将自动禁用。如果启用了此功能，并且一旦通过 API 令牌验证，Crawlector 将向指定的 **ctrl_channel** 发送消息“Crawlector is ready for receiving control commands. Type the command **cl_help** for a list of supported control commands.”。对给定控制命令的所有响应都是线程化的。此外，控制命令是逐会话读取的，从会话开始时开始。 **注意-2**：Slack 对检索（对话历史）消息 API 的速率限制是每秒一个请求，对某些突发有一定的余地。因此，如果 **ctrl_sleep** 选项设置为小于一秒或大于一秒的值，Crawlector **会对消息进行排队**以适应每秒更多的**控制命令**，并按接收顺序执行它们。 # DNS 服务器随着 2.3 版本（代号为 *Munich*）的发布，引入了为 Crawlector 尝试的所有 DNS 查询和 DNS 到 IP 解析指定 DNS 服务器列表的功能，并具有高度的控制能力。如果您正在爬取被阻止或恶意网站，这一点很重要。此功能适用于 Crawlector 中进行 DNS 查询或 DNS 到 IP 请求的每个函数。更重要的是，它提供了对支持它的每个名称服务器执行基于 TLS 的 DNS（DNS over TLS）的功能。 **[dns_ns]** 部分提供了以下选项列表来管理此功能： ## [dns_ns] * enable = false ; (t: bool) * name_servers = 8.8.8.8(e_tls),12.13.14.15(d_tls) ; (t: string) * dns_tls = yes ; (t: string) (yes, no 或 force) * keep_default = false ; (t: bool) * conn_time_out = 3000 ; (t: uint32_t) 以毫秒为单位（0 表示无限期等待）选项 **name_servers** 接受一个参数化的 DNS 名称服务器列表，以逗号分隔。此选项的值具有以下格式：```() 其中接受值 "d_tls" 或 "e_tls"```。选项 "_d_tls_" 或 "_e_tls_" 分别表示相关名称服务器是否支持基于 TLS 的 DNS（DNS over TLS）。将根据选项 **dns_tls** 设置的值强制执行此选项。例如，条目 ```8.8.8.8(e_tls)``` 表示使用带有 TLS 支持的 Google DNS 服务器 ```8.8.8.8```，而条目 ```12.13.14.15(d_tls)``` 表示使用没有 TLS 支持的 DNS 服务器 ```12.13.14.15```。选项 **dns_tls** 指定所需的 TLS 强制执行级别。此选项接受值 "_yes_" "_no_" 或 "_force_"。 - _yes_ - 将首先尝试支持 TLS 的 DNS 名称服务器，如果找不到支持 TLS 的 NS，则将尝试 UDP/TCP 解析。 - _no_ - 不支持 TLS（不使用支持 TLS 的 DNS 名称服务器） - _force_ - 将仅使用支持 TLS 的 DNS 名称服务器，并且 Crawlector 发起的任何 DNS 查询都将使用 DoT（DNS over TLS）。选项 **keep_default** 用于是否将默认名称服务器添加到名称服务器列表中。假定默认名称服务器不支持 TLS。选项 **conn_time_out** 指定等待 DNS 查询答案的时间（以毫秒为单位）。选项 **enable** 打开或关闭此功能。 # 2.0 版本中的其他改进 * 添加了命令行选项 **"-v"** 和 **"-c"**。选项 **"-v"** 用于将版本信息打印到控制台。选项 **"-c"** 用于读取不同的配置文件，而不是默认的 **"cl_config.ini"**。 * 各种代码优化和小的改进 - 对于每个读取的域名（不是子域名），Crawlector 将在每个读取的站点条目前面加上 "www."（如果它尚不存在的话）。例如，在 RapidAPI 子域名枚举查询的情况下，被查询的域名必须以 "www." 开头。 * 向 **[default]** 部分添加了选项 **clear_dns** 和 **upg_2_https**。前者清除主机名到 IP 的 DNS 缓存，后者通过在其前面加上 "https://" 将每个站点升级到 HTTPS。同样，选项 **tld_upgrd_2_https** 已添加到 **[site]** 部分，用于将具有不同 TLD 的活动域名升级到 https。 * 向 **[site]** 部分添加了选项 **rapid_api_weeks** 和 **rapid_api_limit**，用于配置对 RapidAPI 的 API 请求。这两个选项都是可选的。前者指定要从 DB 查询的周数，后者指定每个站点返回的子域名数量。 * 在 2.0 版本中，您可以通过选项 **cache_dir** 为 **[spider]** 和 **[default]** 部分指定不同的缓存目录。 * 在 2.0 版本中向 **page** 部分添加了许多选项，包括： * 选项 **whois_info** 检索 whois 域名信息，包括注册商、registered_on、expires_on 和 updated_on。此数据是从 https://www.whois.com/whois/ 拉取的。数据将保存到 **cl_mlog** CSV 文件。 * 选项 **page_title** 将页面标题保存到 **cl_mlog** CSV 文件。 * 添加了选项 **results_dir** 以提供将页面保存在不同路径下的功能。如果未设置，将在与 Crawlector 相同的目录中创建 "results" 文件夹。 * 将 Yara 引擎升级到 4.3.2 # 设计考虑 - 通过向服务器发送 GET 请求、读取服务器响应正文并将其传递给 Yara 引擎进行检测来检索 URL 页面。 - GET 请求的一些属性在配置文件的 [default] 部分中定义，包括 User-Agent 和 Referer 头、连接超时以及其他选项。 - 虽然 Crawlector 会将会话数据记录到 CSV 文件，但建议将其转换为 SQL 文件以获得更好的性能、操作和数据检索。当您爬取数千个域名时，这一点变得显而易见。 - `cl_sites` 中允许重复的域名/URL。 # 限制 - 单线程 - 静态检测（不对给定页面的内容进行动态评估）。请改用 DOE 功能。 - 尚不支持无头浏览器！ # 使用的第三方库 - [Chilkat：用于网站爬取、HTTP 通信、哈希、JSON 解析和文件压缩（ZIP）等的库](https://www.chilkatsoft.com/) - [Yara：用于规则扫描 (v4.5.4)](https://github.com/virustotal/yara) - [CrossGuid：用于生成 GUID/UUID](https://github.com/graeme-hill/crossguid) - [Inih：用于解析配置文件](https://github.com/benhoyt/inih) - [Rapidcsv：用于解析 CSV 文件](https://github.com/d99kris/rapidcsv) - [Color Console：用于控制台着色](https://github.com/imfl/color-console) - [TLSH (Trend Micro Locality Sensitive Hash) (v4.8.2)](https://github.com/trendmicro/tlsh) # 贡献接受拉取请求和问题。非常感谢评论和建议。 # 作者 Mohamad Mokbel ([@MFMokbel](https://twitter.com/MFMokbel))

标签：BeEF, DNS分析, GitHub, Slack集成, URLhaus, Yara规则, 在线扫描, 威胁情报, 开发者工具, 数字证书, 深度对象提取, 爬虫, 离线扫描, 网络安全, 自动告警, 远程控制, 隐私保护