stanford-cs336/assignment1-basics

GitHub: stanford-cs336/assignment1-basics

斯坦福 CS336 课程的作业一,通过提供测试框架和数据集让学生从零实现语言模型的基础组件。

Stars: 2208 | Forks: 2305

# CS336 2025 春季作业 1:基础 如需了解作业的完整说明,请参阅位于此处的作业讲义 [cs336_assignment1_basics.pdf](./cs336_assignment1_basics.pdf) 如果您发现作业讲义或代码有任何问题,请随时 提交 GitHub issue 或提交包含修复内容的 pull request。 ## 环境设置 ### 环境 我们使用 `uv` 来管理环境,以确保可重复性、可移植性和易用性。 在[此处](https://github.com/astral-sh/uv#installation)安装 `uv`(推荐),或者运行 `pip install uv`/`brew install uv`。 我们建议在此处阅读一些关于使用 `uv` 管理项目的内容 [此处](https://docs.astral.sh/uv/guides/projects/#managing-dependencies)(您绝对不会后悔的!)。 您现在可以使用以下命令运行仓库中的任何代码 ``` uv run ``` 环境将会被自动解析,并在必要时自动激活。 ### 运行单元测试 ``` uv run pytest ``` 最初,所有测试都应该会因为 `NotImplementedError` 而失败。 要将您的实现连接到测试,请完成 [./tests/adapters.py](./tests/adapters.py) 中的函数。 ### 下载数据 下载 TinyStories 数据和 OpenWebText 的子样本 ``` mkdir -p data cd data wget https://huggingface.co/datasets/roneneldan/TinyStories/resolve/main/TinyStoriesV2-GPT4-train.txt wget https://huggingface.co/datasets/roneneldan/TinyStories/resolve/main/TinyStoriesV2-GPT4-valid.txt wget https://huggingface.co/datasets/stanford-cs336/owt-sample/resolve/main/owt_train.txt.gz gunzip owt_train.txt.gz wget https://huggingface.co/datasets/stanford-cs336/owt-sample/resolve/main/owt_valid.txt.gz gunzip owt_valid.txt.gz cd .. ```
标签:Apex, DLL 劫持, Python, 人工智能, 凭据扫描, 大语言模型, 安全规则引擎, 教学示例, 无后门, 机器学习, 深度学习, 用户模式Hook绕过, 逆向工具