lmdixon23/my_dev_projects

GitHub: lmdixon23/my_dev_projects

一个集成了多种技术领域的开发项目组合,提供可测试、可验证的代码示例。

Stars: 1 | Forks: 0

# 我的开发项目 [![许可证:MIT](https://img.shields.io/badge/license-MIT-blue.svg)](./LICENSE) [![Python:3.10+](https://img.shields.io/badge/python-3.10%2B-blue.svg)](https://www.python.org/downloads/) [![Rust:稳定版](https://img.shields.io/badge/rust-stable-orange.svg)](https://www.rust-lang.org/) [![CI](https://static.pigsec.cn/wp-content/uploads/repos/2026/06/57e7adbdbf091630.svg)](https://github.com/lmdixon23/my_dev_projects/actions/workflows/ci.yml) [![实时演示](https://img.shields.io/badge/live_demo-playgrounds-brightgreen.svg)](https://lmdixon23.github.io/my_dev_projects/) [![良好入门问题](https://img.shields.io/github/issues/lmdixon23/my_dev_projects/good%20first%20issue?label=good%20first%20issues&color=7057ff)](https://github.com/lmdixon23/my_dev_projects/issues?q=is%3Aopen+label%3A%22good+first+issue%22) 涵盖人工智能工程、机器学习、区块链协议、数据工程和网络安全的运行项目组合。每个项目都构建并运行,包含真实的测试套件或烟雾管道,并附有README文件,清楚地说明已实现的内容与仍处于规划阶段的内容。 **一个代表性的结果:** GRPO重现从Shao等人2024年的图5中恢复了定性排名——在合成可验证奖励任务上,RFT / 在线RFT / GRPO+OS的最终准确率分别为**0.18 / 0.95 / 0.99**(3个种子的平均值),CPU时间不到一分钟。详细信息请参阅[`grpo_minimal`](./ai_engineering/rlvr/grpo_minimal/)和[`RESULTS.md`](./RESULTS.md)。 ## 从这里开始(30秒游览) - **对于AI / ML工程职位**,打开[`ai_engineering/rag_assistant/README.md`](./ai_engineering/rag_assistant/)和[`ai_engineering/rlvr/grpo_minimal/README.md`](./ai_engineering/rlvr/grpo_minimal/)——RAG系统和GRPO图5的重现是两个密度最高的部分。 - **对于系统 / Rust / 密码学职位**,打开[`blockchain_protocols/rust_cross_chain_atomic_bridge/README.md`](./blockchain_protocols/rust_cross_chain_atomic_bridge/)——HTLC提交/揭示与恒定时间比较,完整的测试套件。 - **对于数据工程职位**,打开[`data_engineering/sales_data_etl_ssis/README.md`](./data_engineering/sales_data_etl_ssis/)以获取SSIS包+跨平台Python参考ETL。 - **对于其他所有内容**,下面的[特色项目](#featured-projects)部分将每个项目按领域分组。 ## 为什么这个存储库很重要 这些不是教程分支或一次性笔记本。每个项目都展示了一个具体的工程技能——一个工作算法、一个经过测试的协议、一个可部署的服务、一个可验证的数据管道——由测试、Docker和CI支持,将项目组合与脚本区分开来。当完整真实世界的版本需要我没有的基础设施(TPU农场、实时区块链、SQL Server集群、付费OpenAI配额)时,项目会提供**烟雾管道**:在合成或存储库数据上进行的端到端运行,让审阅者可以在大约一分钟内检查代码路径。 ## 这个存储库是如何组织的 | 文件夹 | 主题 | 项目数量 | | -------------------------------------------------- | ----------------------------------------------------------------------------------------- | ------------- | | [`ai_engineering/`](./ai_engineering/) | 现代LLM系统:RAG、代理、评估、LLM-API CLI;以及RLVR操作符伴随代码 | 4 + 2 | | [`machine_learning/`](./machine_learning/) | 经典和深度ML、CV、NLP | 4 | | [`blockchain_protocols/`](./blockchain_protocols/) | Rust协议实现 | 6 | | [`data_engineering/`](./data_engineering/) | ETL、仓库、分析 | 1 | | [`network_security/`](./network_security/) | 云安全基础设施 | 1 | | [`ai_playgrounds/`](./ai_playgrounds/) | 十二个单文件HTML+JS交互式应用程序,用于教授核心AI思想 | 12 | | [`prototypes/`](./prototypes/) | 草稿和实验,故意低于项目组合标准 | varies | 每个项目的README都遵循一个熟悉的模式:简短概述、关键特性、架构和示例用法、入门部分(先决条件、安装、运行、测试),然后是技术规范、项目展示的内容、诚实的范围和未来改进。 ## 特色项目 ### 人工智能工程 ([`ai_engineering/`](./ai_engineering/)) - **[RAG助手](./ai_engineering/rag_assistant/)** — 文档分块、嵌入、FAISS支持的向量存储、检索+生成,以及检索质量评估工具包。2026年默认模式,将LLM固定在您自己的文档中。 - **[代理工具包](./ai_engineering/agent_toolkit/)** — ReAct风格的LLM代理,具有类型化工具注册表(`@tool`装饰器)、跟踪日志、结构化工具调用,以及内置计算器的AST允许列表表达式评估器(无`eval()`)。 - **[LLM评估工具包](./ai_engineering/llm_eval_harness/)** — 测试用例格式、四种评估策略(精确匹配、正则表达式、嵌入相似度、LLM作为裁判)、聚合和HTML报告。RAG和代理的补充,让您真正测量它们。 - **[NLP文本摘要CLI](./ai_engineering/nlp_text_summarization_api/)** — 异步OpenAI客户端,具有适当的并发控制,API密钥在429时轮换,SQLite持久性,真实趋势分析,通过`httpx.MockTransport`的无标记器测试套件。 - **[正则化操作员动物园](./ai_engineering/rlvr/regularized_operator_zoo/)** — 现代RL后训练核心正则化贪婪操作员的教学实现(负熵、KL到均匀、KL到锚/Vieillard、Tsallis / 稀疏max、Rényi)。我RLVR操作员系列文章的伴随代码。 - **[GRPO最小化](./ai_engineering/rlvr/grpo_minimal/)** — 在合成可验证奖励任务上,RFT、在线RFT和GRPO+OS共享单个训练循环。重现了Shao等人2024年图5的定性排名(arXiv:2402.03300v3)。从操作员动物园导入`kl_anchor_term`——两个项目之间的真实依赖关系,而不是装饰,并且测试证明了这一点。 ### 机器学习 ([`machine_learning/`](./machine_learning/)) - **[图像字幕(CNN + RNN,TPU)](./machine_learning/image_captioning_cnn_rnn_tpu/)** — VGG16编码器+LSTM解码器在COCO Val2017上,真实的TPU策略,CPU/GPU后备,BLEU-4评估。 - **[图像分类](./machine_learning/image_classification/)** — 冻结VGG16的迁移学习,真实的测试/训练分割,Docker化的Flask服务,三个测试文件,烟雾管道。 - **[锂离子电池预测性维护](./machine_learning/predictive_maintenance/)** — 随机森林与持久化的缩放器+特征列清单,尊重训练合同的Flask服务。 - **[使用BERT进行情感分析](./machine_learning/sentiment_analysis_transfer_learning/)** — Hugging Face `TFAutoModelForSequenceClassification`微调,三个数据加载器,无网络快速测试,使用`prajjwal1/bert-tiny`的烟雾管道。 ### 区块链协议 ([`blockchain_protocols/`](./blockchain_protocols/)) 全部使用Rust,全部`lib + bin`,在`tests/`下有集成测试,所有项目都诚实地表示是模拟而不是真正的链上代码。 - **[跨链原子桥](./blockchain_protocols/rust_cross_chain_atomic_bridge/)** — HTLC提交/揭示与恒定时间比较,两阶段原子性回滚,原生-包装会计。 - **[去中心化投票](./blockchain_protocols/rust_decentralized_voting/)** — SHA-256提交/揭示选票,提交选票集的Merkle根用于跨观察者可验证性。 - **[二次投票+流动性民主](./blockchain_protocols/rust_quadratic_voting/)** — QV `n²`成本,信用移动委托,代表时间周期检测。 - **[PoS + ZKP投票](./blockchain_protocols/rust_pos_zkp_voting/)** — 权重PoS领导者选择,真实的Ed25519签名投票,资格承诺,篡改可见链。 - **[PoA + ZKP投票](./blockchain_protocols/rust_poa_zkp_voting/)** — 轮询权威区块生产(Clique/Aura风格),权威签名区块;PoS项目的PoA兄弟。 - **[去中心化金融借贷协议](./blockchain_protocols/rust_defi_lending_protocol/)** — `u128`微单元货币数学,基于时间的利息累积,利用驱动动态利率,清算原语,仅追加事件账本。 ### 数据工程 ([`data_engineering/`](./data_engineering/)) - **[销售数据ETL(SSIS)](./data_engineering/sales_data_etl_ssis/)** — 具有错误重定向和行计数日志的SSIS包,幂等SQL DDL + SQL Server Agent设置,以及针对SQLite的Python参考ETL,以便在任何机器上验证逻辑。 ### 网络安全 ([`network_security/`](./network_security/)) - **[SSE共存测试](./network_security/sse_coexistence_testing/)** — Terraform管理的AWS基础设施,用于检查安全服务边缘/全球安全访问控制与主机防火墙(UFW)共存。 ### 人工智能游乐场 ([`ai_playgrounds/`](./ai_playgrounds/)) 十二个单文件HTML+JavaScript交互式应用程序——无需构建步骤,无需安装,GitHub-Pages可部署——映射到入门AI课程中最视觉丰富的单元。作为2025-2026年海淀凯文学院*人工智能入门*课程的辅助教学工具构建,但任何教室都可以免费使用。 每个应用程序针对一个“啊哈”时刻——示例包括A*与BFS(搜索)、贝叶斯规则用于罕见疾病(概率)、KNN中的k(监督)、多项式过拟合(评估)、TF-Playground风格的微型网络(神经网络)、k-means迭代(无监督)、3×3卷积核(CV)、Q-learning网格世界(RL)、逻辑/SAT、贝叶斯网络、局部搜索以及Wumpus世界。拖动滑块,可视化将实时重新渲染。有关完整列表和部署指南,请参阅[`ai_playgrounds/README.md`](./ai_playgrounds/)。 ## 持续集成 每个提交的提交都会触发[`.github/workflows/`](./.github/workflows/)中的工作流程,构建和测试每个项目。矩阵运行Python测试以针对ML / AI /数据工程项目,Cargo测试针对Rust存储库,Terraform验证针对网络安全基础设施。 ## 结果 烟雾管道输出(定性排名、身份验证、预期指标范围)为每个可运行项目索引在[`RESULTS.md`](./RESULTS.md)。每个报告都有一个一行重新生成命令,以便审阅者可以使用他们自己的机器上的真实值刷新数字。 ## 存储库约定 - **每个项目一个README**,每个都链接到上面的相关部分。 - **测试与代码相邻**:Python项目的`tests/`目录,Rust存储库的`tests/integration.rs`,SSIS项目的`python_reference_etl/`。 - **通过`.env`使用机密信息**,从不提交。每个需要它们的项目的存储库都包含一个`.env.example`。 - **烟雾管道**(`smoke/run_smoke.py`或类似)在需要我无法拥有的资源(TPU农场、实时区块链、SQL Server集群、付费OpenAI配额)的完整真实世界运行时。这些在合成或存储库数据上执行整个代码路径的练习。 - **不检查`venv/`**——请参阅根目录的`.gitignore`。 ## 贡献 欢迎贡献。如果您计划进行重大更改,请先打开一个问题,以便我们可以就范围达成一致。 ## 许可证 本存储库受MIT许可证许可——有关详细信息
标签:Apex, CPU 性能, DNS解析, GitHub 项目, MIT 许可, Python, RAG 系统, Rust, 人工智能, 代码优化, 代码审查, 代码示例, 代码维护, 代码贡献, 代码重构, 加密货币, 区块链, 可视化界面, 后端开发, 图模型, 开源框架, 开源项目, 强化学习, 性能优化, 性能测试, 持续集成, 数据分析, 数据工程, 文档编写, 无后门, 智能合约, 机器学习, 检测绕过, 测试套件, 烟雾测试, 用户模式Hook绕过, 网络安全, 网络流量审计, 请求拦截, 贡献指南, 跨链桥接, 逆向工具, 隐私保护