SuperCowPowers/zat
GitHub: SuperCowPowers/zat
连接Zeek网络数据与Python数据科学生态的工具集,支持从Pandas探索到Spark大规模处理的完整分析链路。
Stars: 451 | Forks: 111
# Zeek Analysis Tools (ZAT)
[](http://codecov.io/github/SuperCowPowers/zat?branch=master) [](https://pypi.python.org/pypi/zat) [](https://choosealicense.com/licenses/apache-2.0)
ZAT Python 包支持对 Zeek 数据的处理和分析
结合 Pandas、scikit-learn、Kafka 和 Spark 使用
### 安装
```
pip install zat
pip install zat[pyspark] (includes pyspark library)
pip install zat[all] (include pyarrow, yara-python, and tldextract)
```
### 入门指南
- [ZAT 使用示例](https://supercowpowers.github.io/zat/examples.html)
### AWS 数据处理与 ML 建模
- 请参阅 [Workbench](https://github.com/SuperCowPowers/workbench)
### 在 Raspberry Pi 上安装!
- [Raspberry Pi 说明](https://supercowpowers.github.io/zat/raspberry_pi.html)
### 近期改进
- 针对大型日志文件更快/更小的 Pandas Dataframes:[大型 Dataframes](https://supercowpowers.github.io/zat/large_dataframes.html)
- 更好的 Panda Dataframe 到 Matrix (ndarray) 支持:[Dataframe 转换为 Matrix](https://supercowpowers.github.io/zat/dataframe_to_matrix.html)
- 从 Zeek 日志到 Parquet 的可扩展转换:[Zeek 转换为 Parquet](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Parquet.ipynb)
- 大幅改进的 Spark Dataframe 类:[Zeek 转换为 Spark](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Spark.ipynb)
- 更新/改进的 Notebooks:[分析 Notebooks](#analysis-notebooks)
- Zeek JSON 到 DataFrame 类:[Zeek JSON 转换为 DataFrame 示例](https://github.com/SuperCowPowers/zat/blob/main/examples/zeek_json_to_pandas.py)
### 视频演示
- [Zeek 数据分析与机器学习](https://www.youtube.com/watch?v=pG5lU9CLnIU)
### 为什么选择 ZAT?
Zeek 已经拥有灵活且强大的脚本语言,为什么我还需要使用 ZAT?
**任务卸载:** 运行复杂任务(如统计、状态机、机器学习等)应从 Zeek 卸载,以便 Zeek 能专注于高效处理大量网络流量。
**数据分析:** 我们提供了一系列丰富的支持类,帮助将原始 Zeek 数据连接到 Pandas、scikit-learn、Kafka 和 Spark 等包。我们还提供了示例 notebooks,逐步展示如何实现从数据源到目标的转换。
### 分析 Notebooks
- [Zeek 转换为 Scikit-Learn](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Scikit_Learn.ipynb)
- [Zeek 转换为 Parquet](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Parquet.ipynb)
- [Zeek 转换为 Spark](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Spark.ipynb)
- [Spark 聚类](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Spark_Clustering.ipynb)
- [Zeek 转换为 Kafka](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Kafka.ipynb)
- [Zeek 转换为 Kafka 再转换为 Spark](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Kafka_to_Spark.ipynb)
- [聚类:选择 K(或不选择)](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Clustering_Picking_K.ipynb)
- [异常检测探索](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Anomaly_Detection.ipynb)
- [风险域名统计与部署](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Risky_Domains.ipynb)
- [Zeek 转换为 Matplotlib](https://nbviewer.jupyter.org/github/SuperCowPowers/zat/blob/main/notebooks/Zeek_to_Plot.ipynb)
### 文档
标签:AMSI绕过, Apache Spark, Apex, Bro IDS, Kafka, Parquet, Python, Rootkit, Scikit-learn, SonarQube插件, Zeek, 二进制发布, 代码示例, 大数据, 威胁检测, 安全运营, 开源工具, 异常检测, 扫描框架, 数据分析, 数据科学, 无后门, 日志处理, 机器学习, 目录扫描, 网络安全, 资源验证, 软件成分分析, 逆向工具, 隐私保护