作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF 流程，包括：监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调。

并且，技术团队以 LLaMA 为基础预训练模型，正式推出了 ColossalChat，这也是目前最接近 ChatGPT 原始技术方案的实用开源项目。

该项目包括但不限于以下功能：

- Demo：可直接在线体验模型效果，无需注册或 waitinglist；
- 训练代码：开源完整 RLHF 训练代码，已开源至含 7B 和 13B 两种模型；
- 数据集：开源 104K 中、英双语数据集；
- 推理部署：4bit 量化推理 70 亿参数模型仅需 4GB 显存；
- 模型权重：仅需单台服务器少量算力即可快速复现；
- 更大规模模型、数据集、其他优化等将保持高速迭代添加。

目前，相关代码已开源至 GitHub，感兴趣的同学可以看下。

项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。

Colossal-AI | Paper | Docs | Forum | Blog | YouTube