chinese-mixtral

中文Mixtral混合专家大模型（Chinese Mixtral MoE LLMs）

https://github.com/ymcui/chinese-mixtral

Keywords

32k 64k large-language-models llm mixtral mixture-of-experts moe nlp

Last synced: 10 months ago · JSON representation ·

Repository

中文Mixtral混合专家大模型（Chinese Mixtral MoE LLMs）

Basic Info

Host: GitHub
Owner: ymcui
License: apache-2.0
Language: Python
Default Branch: main
Homepage: https://arxiv.org/abs/2403.01851
Size: 519 KB

Statistics

Stars: 608
Watchers: 15
Forks: 44
Open Issues: 0
Releases: 3

Topics

32k 64k large-language-models llm mixtral mixture-of-experts moe nlp

Created over 2 years ago · Last pushed about 2 years ago

Metadata Files

Readme License Citation

README.md

GitHub GitHub release (latest by date) GitHub top language

本项目基于Mistral.ai发布的Mixtral模型进行开发，该模型使用了稀疏混合专家模型（Sparse MoE）架构。本项目利用大规模中文无标注数据进行了中文增量训练，得到了中文Mixtral基础模型，并且进一步通过指令精调，得到了中文Mixtral-Instruct指令模型。该模型原生支持32K上下文（实测可达128K），能够有效地处理长文本，同时在数学推理、代码生成等方面获得了显著性能提升。使用llama.cpp进行量化推理时，最低只需16G内存（或显存）。

技术报告：[Cui and Yao, 2024] Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral [论文解读]

本项目主要内容

🚀 开源中文Mixtral基础模型，该模型在Mixtral-8x7B-v0.1的基础上进行了中文增量训练
🚀 开源中文Mixtral-Instruct指令模型，该模型在中文Mixtral的基础上进一步进行了指令精调
🚀 开源了预训练脚本、指令精调脚本，用户可根据需要进一步训练或微调模型
🚀 提供了利用个人电脑CPU/GPU快速在本地进行大模型量化和部署的教程
🚀 支持🤗transformers, llama.cpp, text-generation-webui, LangChain, privateGPT, vLLM等Mixtral生态

新闻

[2024/04/30] Chinese-LLaMA-Alpaca-3 已正式发布，开源基于Llama-3的Llama-3-Chinese-8B和Llama-3-Chinese-8B-Instruct，请参阅：https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

[2024/03/27] 添加1-bit/2-bit/3-bit量化版GGUF模型：[🤗HF]；同时，本项目已入驻机器之心SOTA!模型平台，欢迎关注：https://sota.jiqizhixin.com/project/chinese-mixtral

[2024/03/26] 添加仿OpenAI API部署模式。详情查看：📚v1.2版本发布日志

[2024/03/05] 开源模型训练和精调代码，发布技术报告。详情查看：📚v1.1版本发布日志

[2024/01/29] 🚀 正式发布Chinese-Mixtral（基座模型），Chinese-Mixtral-Instruct（指令/chat模型）。详情查看：📚v1.0版本发布日志

内容导引

| 章节 | 描述 | | ------------------------------------- | ------------------------------------------------------------ | | 💁🏻‍♂️模型简介 | 简要介绍本项目相关模型的技术特点 | | ⏬模型下载 | 中文Mixtral大模型下载地址 | | 💻推理与部署 | 介绍了如何对模型进行量化并使用个人电脑部署并体验大模型 | | 💯模型效果 | 介绍了模型在部分任务上的效果 | | 📝训练与精调 | 介绍了如何训练和精调中文Mixtral大模型 | | ❓常见问题 | 一些常见问题的回复 |

模型简介

本项目开源了基于Mixtral模型开发的中文Mixtral、中文Mixtral-Instruct模型，其主要特点如下：

📖 稀疏混合专家模型

Mixtral是一个稀疏混合专家模型。该模型与以往的LLaMA等主流大模型结构具有显著差异，主要体现在以下几点：

每个FFN层包含8个不同的"专家"（全连接层），根据门控值选取最优的2个进行激活
输入序列中的每个token都会独立地选取专家，而不是整个序列对应一组专家
实际参数量约为46.7B，在推理时激活的参数量约为13B

以下是Mixtral论文中的结构示意图：

🚄 原生支持32K上下文（实测支持128K）

与Chinese-LLaMA-Alpaca以及Chinese-LLaMA-Alpaca-2项目不同，Mixtral模型原生支持32K上下文（实测可达128K）。用户可使用单一模型来解决不同长度的各类任务。

模型下载

模型选择指引

以下是本项目的模型对比以及建议使用场景。如需聊天交互，请选择Instruct版。

下载地址

以下提供了3种不同类型的模型：

完整版模型：直接下载即可使用，无需其他合并步骤，推荐网络带宽充足的用户；
LoRA版模型：无法单独使用，必须与原版Mixtral-8x7B-v0.1合并才能转为完整版模型，推荐网络带宽不足且手头有原版Mixtral的用户。合并方法请参阅：💻 模型合并步骤
GGUF版模型：兼容llama.cpp等工具的GGUF量化版模型，推荐只需要做推理部署的用户下载。

| 模型名称 | 类型 | 规格 | 完整版（87 GB） | LoRA版（2.4 GB） | GGUF版 | | :------------------------ | :------: | :----------------------------------------------------------: | :----------------------------------------------------------: | :----------------------------------------------------------: | :----------------------------------------------------------: | | Chinese-Mixtral | 基座模型 | 8x7B | [Baidu] [🤗HF]
[🤖ModelScope] | [Baidu] [🤗HF]
[🤖ModelScope] | [🤗HF] | | Chinese-Mixtral-Instruct | 指令模型 | 8x7B | [Baidu] [🤗HF]
[🤖ModelScope] | [Baidu] [🤗HF]
[🤖ModelScope] | [🤗HF] |

[!NOTE] 若无法访问HF，可考虑一些镜像站点（如hf-mirror.com），具体方法请自行查找解决。

推理与部署

本项目中的相关模型主要支持以下量化、推理和部署方式，具体内容请参考对应教程。

| 工具 | 特点 | CPU | GPU | 量化 | GUI | API | vLLM | 教程 | | :----------------------------------------------------------- | ---------------------------- | :--: | :--: | :--: | :--: | :--: | :--: |:--: | | llama.cpp | 丰富的量化选项和高效本地推理 | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ | [link] | | 🤗Transformers | 原生transformers推理接口 | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ | [link] | | 仿OpenAI API调用 | 仿OpenAI API接口的服务器Demo | ✅ | ✅ | ✅ | ❌ | ✅ | ✅ | [link] | | text-generation-webui | 前端Web UI界面的部署方式 | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | [link] | | LangChain | 适合二次开发的大模型应用开源框架 | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | [link] | | privateGPT | 多文档本地问答框架 | ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | [link] | | LM Studio | 多平台聊天软件（带界面） | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ | [link] |

模型效果

为了评测相关模型的效果，本项目分别进行了生成效果评测和客观效果评测（NLU类），从不同角度对大模型进行评估。推荐用户在自己关注的任务上进行测试，选择适配相关任务的模型。

生成效果评测

本项目仿照Fastchat Chatbot Arena推出了模型在线对战平台，可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标，并且可以查看两两模型的对战胜率等结果。⚔️ 模型竞技场：http://llm-arena.ymcui.com
examples目录中提供了Chinese-Mixtral-Instruct与Chinese-Alpaca-2-13B的输出样例，并通过GPT-4进行了打分对比，Chinese-Mixtral-Instruct平均得分为8.20、Chinese-Alpaca-2-13B平均得分为7.05。📄 输出样例对比：examples

客观效果评测

C-Eval

C-Eval是一个全面的中文基础模型评估套件，其中验证集和测试集分别包含1.3K和12.3K个选择题，涵盖52个学科。C-Eval推理代码请参考本项目：📖GitHub Wiki

| Models | 类型 | Valid (0-shot) | Valid (5-shot) | Test (0-shot) | Test (5-shot) | | ------------------------ | :------------: | :------------: | :-----------: | :-----------: | :-----------: | | Chinese-Mixtral-Instruct | 指令 | 51.7 | 55.0 | 50.0 | 51.5 | | Chinese-Mixtral | 基座 | 45.8 | 54.2 | 43.1 | 49.1 | | Mixtral-8x7B-Instruct-v0.1 | 指令 | 51.6 | 54.0 | 48.7 | 50.7 | | Mixtral-8x7B-v0.1 | 基座 | 47.3 | 54.6 | 46.1 | 50.3 | | Chinese-Alpaca-2-13B | 指令 | 44.3 | 45.9 | 42.6 | 44.0 | | Chinese-LLaMA-2-13B | 基座 | 40.6 | 42.7 | 38.0 | 41.6 |

CMMLU

CMMLU是另一个综合性中文评测数据集，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题，共计11.5K个选择题。CMMLU推理代码请参考本项目：📖GitHub Wiki

| Models | 类型 | Test (0-shot) | Test (5-shot) | | ------------------------ | :------------: | :-----------: | :-----------: | | Chinese-Mixtral-Instruct | 指令 | 50.0 | 53.0 | | Chinese-Mixtral | 基座 | 42.5 | 51.0 | | Mixtral-8x7B-Instruct-v0.1 | 指令 | 48.2 | 51.6 | | Mixtral-8x7B-v0.1 | 基座 | 44.3 | 51.6 | | Chinese-Alpaca-2-13B | 指令 | 43.2 | 45.5 | | Chinese-LLaMA-2-13B | 基座 | 38.9 | 42.5 |

MMLU

MMLU是一个用于评测自然语言理解能力的英文评测数据集，是当今用于评测大模型能力的主要数据集之一，其中验证集和测试集分别包含1.5K和14.1K个选择题，涵盖57个学科。MMLU推理代码请参考本项目：📖GitHub Wiki

| Models | 类型 | Valid (0-shot) | Valid (5-shot) | Test (0-shot) | Test (5-shot) | | ------------------------ | :------------: | :------------: | :-----------: | :-----------: | :-----------: | | Chinese-Mixtral-Instruct | 指令 | 65.1 | 69.6 | 67.5 | 69.8 | | Chinese-Mixtral | 基座 | 63.2 | 67.1 | 65.5 | 68.3 | | Mixtral-8x7B-Instruct-v0.1 | 指令 | 68.5 | 70.4 | 68.2 | 70.2 | | Mixtral-8x7B-v0.1 | 基座 | 64.9 | 69.0 | 67.0 | 69.5 | | Chinese-Alpaca-2-13B | 指令 | 49.6 | 53.2 | 50.9 | 53.5 | | Chinese-LLaMA-2-13B | 基座 | 46.8 | 50.0 | 46.6 | 51.8 |

LongBench

LongBench是一个大模型长文本理解能力的评测基准，由6大类、20个不同的任务组成，多数任务的平均长度在5K-15K之间，共包含约4.75K条测试数据。以下是本项目模型在该中文任务（含代码任务）上的评测效果。LongBench推理代码请参考本项目：📖GitHub Wiki

| Models | 单文档QA | 多文档QA | 摘要 | FS学习 | 代码补全 | 合成任务 | 平均 | | ------------------------------------------------------------ | :------: | :------: | :--: | :----: | :------: | :------: | :--: | | Chinese-Mixtral-Instruct | 50.3 | 34.2 | 16.4 | 42.0 | 56.1 | 89.5 | 48.1 | | Chinese-Mixtral | 32.0 | 23.7 | 0.4 | 42.5 | 27.4 | 14.0 | 23.3 | | Mixtral-8x7B-Instruct-v0.1 | 56.5 | 35.7 | 15.4 | 46.0 | 63.6 | 98.0 | 52.5 | | Mixtral-8x7B-v0.1 | 35.5 | 9.5 | 16.4 | 46.5 | 57.2 | 83.5 | 41.4 | | Chinese-Alpaca-2-13B-16K | 47.9 | 26.7 | 13.0 | 22.3 | 46.6 | 21.5 | 29.7 | | Chinese-LLaMA-2-13B-16K | 36.7 | 17.7 | 3.1 | 29.8 | 13.8 | 3.0 | 17.3 | | Chinese-Alpaca-2-7B-64K | 44.7 | 28.1 | 14.4 | 39.0 | 44.6 | 5.0 | 29.3 | | Chinese-LLaMA-2-7B-64K | 27.2 | 16.4 | 6.5 | 33.0 | 7.8 | 5.0 | 16.0 |

量化效果评测

在llama.cpp下，测试了Chinese-Mixtral量化版模型的性能，如下表所示。

| | F16 | Q80 | Q6K | Q5K | Q50 | Q4K | Q40 | Q3K | IQ3XXS | Q2K | IQ2XS | IQ2_XXS | | ------------ | ---: | -----: | -----: | -----: | -----: | -----: | -----: | -----: | ------: | -----: | -----: | ------: | | Size (GB) | 87.0 | 46.2 | 35.7 | 30.0 | 30.0 | 24.6 | 24.6 | 19.0 | 17.1 | 16.1 | 12.7 | 11.4 | | BPW | 16.0 | 8.50 | 6.57 | 5.69 | 5.52 | 4.87 | 4.53 | 3.86 | 3.14 | 2.96 | 2.34 | 2.10 | | PPL | - | 4.4076 | 4.4092 | 4.4192 | 4.4224 | 4.4488 | 4.4917 | 4.5545 | 4.5990 | 5.1846 | 6.9784 | 8.5981 | | M3 Max Speed | - | - | 36.0 | 36.9 | 35.7 | 31.2 | 27.8 | 37.6 | - | 29.1 | - | - | | A100 Speed | - | - | 29.9 | 22.6 | 20.5 | 21.7 | 17.1 | 21.7 | 20.6 | 20.3 | 23.7 | 22.5 |

[!NOTE]

模型大小：单位GB

BPW（Bits-Per-Weight）：单位参数比特，例如Q6_K实际平均精度为6.57

PPL（困惑度）：以4K上下文测量，数值越低越好

生成速度：提供了Apple M3 Max（Metal）以及NVIDIA A100（40G）的生成速度（单位ms/token），数值越低越好

以Chinese-Mixtral-Q4_0为例，下图展示了不同上下文长度下的PPL变化趋势，选取了2组不同的纯文本数据。实验结果表明Mixtral模型支持的上下文长度已超过标称的32K，在64K+上下文下仍然具有较好的表现（实测可达128K）。

训练与精调

预训练

在原版Mixtral的基础上，利用大规模无标注数据进行增量训练，得到Chinese-Mixtral基座模型
训练数据采用Chinese-LLaMA-Alpaca项目中与基础版模型一致的数据，其总量约20G纯文本文件
训练代码及使用教程：📖预训练脚本Wiki

指令精调

在Chinese-Mixtral的基础上，利用有标注指令数据进行进一步精调，得到Chinese-Mixtral-Instruct指令模型
训练数据采用了Chinese-LLaMA-Alpaca-2项目中使用的指令数据，其总量约500万条指令数据
训练代码及使用教程：📖指令精调脚本Wiki

指令模板：

<s> [INST] Instruction [/INST] Model answer</s> [INST] Follow-up instruction [/INST] 注意：<s>和</s>是表示序列开始和结束的特殊token，而[INST]和[/INST]则是普通字符串。

常见问题

请在提Issue前务必先查看FAQ中是否已存在解决方案。具体问题和解答请参考本项目 📖GitHub Wiki

问题1：后续会不会用更多数据进行训练？会不会做RLHF/DPO对齐？问题2：为什么本次的模型没有做中文词表扩展？问题3：是否支持Mixtral的下游生态？

引用

tex @article{chinese-mixtral, title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral}, author={Cui, Yiming and Yao, Xin}, journal={arXiv preprint arXiv:2403.01851}, url={https://arxiv.org/abs/2403.01851}, year={2024} }

免责声明

本项目基于由Mistral.ai发布的Mixtral模型进行开发，使用过程中请严格遵守Mixtral的开源许可协议。如果涉及使用第三方代码，请务必遵从相关的开源许可协议。模型生成的内容可能会因为计算方法、随机因素以及量化精度损失等影响其准确性，因此，本项目不对模型输出的准确性提供任何保证，也不会对任何因使用相关资源和输出结果产生的损失承担责任。如果将本项目的相关模型用于商业用途，开发者应遵守当地的法律法规，确保模型输出内容的合规性，本项目不对任何由此衍生的产品或服务承担责任。

问题反馈

如有疑问，请在GitHub Issue中提交。礼貌地提出问题，构建和谐的讨论社区。

在提交问题之前，请先查看FAQ能否解决问题，同时建议查阅以往的issue是否能解决你的问题。
提交问题请使用本项目设置的Issue模板，以帮助快速定位具体问题。
重复以及与本项目无关的issue会被stable-bot处理，敬请谅解。

Owner

Name: Yiming Cui
Login: ymcui
Kind: user
Location: Beijing, China
Company: Joint Laboratory of HIT and iFLYTEK Research (HFL)

Website: http://ymcui.github.io
Twitter: KCrosner
Repositories: 28
Profile: https://github.com/ymcui

NLP Researcher. Mainly interested in Pre-trained Language Model, Machine Reading Comprehension, Question Answering, etc.

Citation (CITATION.cff)

cff-version: 1.2.0
message: "Please cite our paper as below."
authors:
- family-names: "Cui"
  given-names: "Yiming"
  orcid: "https://orcid.org/0000-0002-2452-375X"
- family-names: "Yao"
  given-names: "Xin"  
title: "Chinese Mixtral"
version: 1.0
date-released: 2024-03-05
url: "https://github.com/ymcui/Chinese-Mixtral"
preferred-citation: 
  type: article
  authors:
  - family-names: "Cui"
    given-names: "Yiming"
    orcid: "https://orcid.org/0000-0002-2452-375X"
  - family-names: "Yao"
    given-names: "Xin"  
  title: "Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral"
  journal: "arXiv pre-print"
  year: 2024
  url: "https://arxiv.org/abs/2403.01851"

GitHub Events

Total

Issues event: 1
Watch event: 37
Issue comment event: 2
Fork event: 3

Last Year

Issues event: 1
Watch event: 37
Issue comment event: 2
Fork event: 3

Committers

Last synced: about 1 year ago

All Time

Total Commits: 29
Total Committers: 2
Avg Commits per committer: 14.5
Development Distribution Score (DDS): 0.138

Past Year

Commits: 0
Committers: 0
Avg Commits per committer: 0.0
Development Distribution Score (DDS): 0.0

Top Committers

Name	Email	Commits
ymcui	1****i	25
Xin Yao	3****i	4

Issues and Pull Requests

Last synced: about 1 year ago

All Time

Total issues: 12
Total pull requests: 12
Average time to close issues: 18 days
Average time to close pull requests: about 2 hours
Total issue authors: 9
Total pull request authors: 2
Average comments per issue: 2.67
Average comments per pull request: 0.0
Merged pull requests: 10
Bot issues: 0
Bot pull requests: 0

Past Year

Issues: 1
Pull requests: 0
Average time to close issues: 22 days
Average time to close pull requests: N/A
Issue authors: 1
Pull request authors: 0
Average comments per issue: 2.0
Average comments per pull request: 0
Merged pull requests: 0
Bot issues: 0
Bot pull requests: 0

View more stats

Top Authors

Issue Authors

feifei05 (2)
cooper12121 (2)
xujunrt (1)
SeanWong17 (1)
Harry-Ja (1)
lychee-2724540853 (1)
RebornForPower (1)
noamKayzer (1)
wanghao-007 (1)

chinese-mixtral

Science Score: 54.0%

Keywords

Repository

Basic Info

Statistics

Topics

Metadata Files

README.md

本项目主要内容

新闻

内容导引

模型简介

📖 稀疏混合专家模型

🚄 原生支持32K上下文（实测支持128K）

模型下载

模型选择指引

下载地址

推理与部署

模型效果

生成效果评测

客观效果评测

C-Eval

CMMLU

MMLU

LongBench

量化效果评测

训练与精调

预训练

指令精调

常见问题

引用

免责声明

问题反馈

Owner

Citation (CITATION.cff)

GitHub Events

Total

Last Year

Committers

All Time

Past Year

Top Committers

Issues and Pull Requests

All Time

Past Year

Top Authors

Issue Authors

Pull Request Authors

Top Labels

Issue Labels

Pull Request Labels

Dependencies