stanford-cs336/assignment1-basics
GitHub: stanford-cs336/assignment1-basics
斯坦福 CS336 课程的作业一,通过提供测试框架和数据集让学生从零实现语言模型的基础组件。
Stars: 2208 | Forks: 2305
# CS336 2025 春季作业 1:基础
如需了解作业的完整说明,请参阅位于此处的作业讲义
[cs336_assignment1_basics.pdf](./cs336_assignment1_basics.pdf)
如果您发现作业讲义或代码有任何问题,请随时
提交 GitHub issue 或提交包含修复内容的 pull request。
## 环境设置
### 环境
我们使用 `uv` 来管理环境,以确保可重复性、可移植性和易用性。
在[此处](https://github.com/astral-sh/uv#installation)安装 `uv`(推荐),或者运行 `pip install uv`/`brew install uv`。
我们建议在此处阅读一些关于使用 `uv` 管理项目的内容 [此处](https://docs.astral.sh/uv/guides/projects/#managing-dependencies)(您绝对不会后悔的!)。
您现在可以使用以下命令运行仓库中的任何代码
```
uv run
```
环境将会被自动解析,并在必要时自动激活。
### 运行单元测试
```
uv run pytest
```
最初,所有测试都应该会因为 `NotImplementedError` 而失败。
要将您的实现连接到测试,请完成
[./tests/adapters.py](./tests/adapters.py) 中的函数。
### 下载数据
下载 TinyStories 数据和 OpenWebText 的子样本
```
mkdir -p data
cd data
wget https://huggingface.co/datasets/roneneldan/TinyStories/resolve/main/TinyStoriesV2-GPT4-train.txt
wget https://huggingface.co/datasets/roneneldan/TinyStories/resolve/main/TinyStoriesV2-GPT4-valid.txt
wget https://huggingface.co/datasets/stanford-cs336/owt-sample/resolve/main/owt_train.txt.gz
gunzip owt_train.txt.gz
wget https://huggingface.co/datasets/stanford-cs336/owt-sample/resolve/main/owt_valid.txt.gz
gunzip owt_valid.txt.gz
cd ..
```
标签:Apex, DLL 劫持, Python, 人工智能, 凭据扫描, 大语言模型, 安全规则引擎, 教学示例, 无后门, 机器学习, 深度学习, 用户模式Hook绕过, 逆向工具