网站简介:(图形)
⚡LLM Zoo是一个为大型语言模型提供数据、模型和评估基准的项目。⚡ 【技术报告】
✨ 最新消息
- [07/12/2023]:更多不同语言的指令跟随数据可以在这里获取。
- [05/05/2023]:发布训练代码。现在,您可以自己复制多语言的法学硕士课程。:-)
- [04/24/2023]:在评估基准中添加更多结果(例如,MOSS)。
- [04/08/2023]:发布 Phoenix(适用于所有语言)和 Chimera(适用于拉丁语言)模型。
? 动机
- 打破“AI霸权”并使ChatGPT民主化
“人工智能霸权”被理解为企业在人工智能领域的绝对领导地位和垄断地位,甚至可能包括超越通用人工智能的独家能力。这对于人工智能界来说是不可接受的,甚至可能导致个体影响人类未来的走向,从而给人类社会带来各种危害。
- 使类似 ChatGPT 的 LLM 可以跨国家/地区和语言访问
- 让AI再次开放。每个人,无论肤色或出生地如何,都应该有平等的机会获得创造者赋予的技术。例如,许多先驱者为向发展中国家推广灯泡和疫苗的使用做出了巨大努力。同样,ChatGPT 作为现代历史上最伟大的技术进步之一,也应该向所有人开放。
? 开始吧
安装
运行以下命令来安装所需的软件包:
pip install -r requirements.txt
CLI 推理
python -m llmzoo.deploy.cli --model-path /path/to/weights/
例如,对于Phoenix
,运行
python -m llmzoo.deploy.cli --model-path FreedomIntelligence/phoenix-inst-chat-7b
它会自动从Hugging Face下载模型。对于Chimera
,请按照此说明准备砝码。
检查此处以部署 Web 应用程序。
? 数据
概述
我们使用以下两种类型的数据进行Phoenix
训练Chimera
:
指令数据
对话数据
检查InstructionZoo以获取指令数据集的集合。
检查GPT-API-Accelerate Tool以使用 ChatGPT 更快地生成数据。
下载
- phoenix-sft-data-v1:用于训练 Phoenix 和 Chimera 的数据。
? 模型
现有型号概览
模型 | 骨干 | #参数 | 开源模式 | 开源数据 | 声称的语言 | 培训后(指导) | 培训后(对话) | 发布日期 |
---|---|---|---|---|---|---|---|---|
聊天GPT | – | – | ❌ | ❌ | 多 | 11/30/22 | ||
文心 | – | – | ❌ | ❌ | zh | 23/03/16 | ||
聊天GLM | 广义线性模型 | 6B | ✅ | ❌ | 英语、中文 | 23/03/16 | ||
羊驼毛 | 骆驼 | 7B | ✅ | ✅ | zh | 52K,英文 | ❌ | 23/03/13 |
多莉 | GPT-J | 6B | ✅ | ✅ | zh | 52K,英文 | ❌ | 23/03/24 |
美女 | 布卢姆兹 | 7B | ✅ | ✅ | zh | 1.5M,zh | ❌ | 23年3月26日 |
原驼 | 骆驼 | 7B | ✅ | ✅ | 英、中、日、德 | 534K,多 | ❌ | 23年3月26日 |
中国-美洲驼-羊驼 | 骆驼 | 7/13B | ✅ | ✅ | 英语、中文 | 2M/3M,英文/中文 | ❌ | 23/03/28 |
骆驼 | 骆驼 | 7B | ✅ | ✅ | zh | 52K,zh | ❌ | 23/03/31 |
骆驼毛 | 骆驼 | 7/13B | ✅ | ✅ | zh | ❌ | 70K,多 | 23/03/13 |
考拉 | 骆驼 | 13B | ✅ | ✅ | zh | 355K,英语 | 117K,英文 | 23年4月3日 |
百泽 | 骆驼 | 7/13/30B | ✅ | ✅ | zh | 52K,英文 | 111.5K,英文 | 23年4月4日 |
凤凰城(我们的) | 布卢姆兹 | 7B | ✅ | ✅ | 多 | 40+ | 40+ | 23年4月8日 |
拉丁凤凰:奇美拉(我们的) | 骆驼 | 7/13B | ✅ | ✅ | 多(拉丁语) | 拉丁 | 拉丁 | 23年4月8日 |
现有模型与我们的模型之间的主要区别。
菲尼克斯(跨语言法学硕士)
命名的哲学
模型 | 骨干 | 数据 | 关联 |
---|---|---|---|
凤凰聊天-7b | BLOOMZ-7b1-mt | 对话 | 参数 |
凤凰城-inst-chat-7b | BLOOMZ-7b1-mt | 指导+对话 | 参数 |
凤凰城-inst-chat-7b-int4 | BLOOMZ-7b1-mt | 指导+对话 | 参数 |
Chimera(法学硕士,主要针对拉丁语和西里尔语)
命名的哲学
模型 | 骨干 | 数据 | 关联 |
---|---|---|---|
奇美拉-chat-7b | LLaMA-7b | 对话 | 参数(增量) |
奇美拉-chat-13b | LLaMA-13b | 对话 | 参数(增量) |
奇美拉-inst-chat-7b | LLaMA-7b | 指导+对话 | 参数(增量) |
奇美拉-inst-chat-13b | LLaMA-13b | 指导+对话 | 参数(增量) |
由于 LLaMA 的许可证限制,我们按照FastChat发布我们的 delta 权重。要使用 Chimera,请下载原始LLaMA 权重并运行脚本:
python tools/apply_delta.py \
--base /path/to/llama-13b \
--target /output/path/to/chimera-inst-chat-13b \
--delta FreedomIntelligence/chimera-inst-chat-13b-delta
CAMEL(中文和医学增强语言模型)
命名的哲学
在HuatuoGPT中查看我们的模型或尝试我们的演示。类似的生物医学模型可以在生物医学法学硕士中看到。
未来会有更多型号
? 评估和基准
我们提供不同开源模型与我们的双语、多维比较。
中国人
- 使用 GPT-4 自动评估:
模型 | 比率 |
---|---|
Phoenix-inst-chat-7b 与ChatGPT | 85.2% |
Phoenix-inst-chat-7b 与ChatGLM-6b | 94.6% |
Phoenix-inst-chat-7b 与百度文信 | 96.8% |
Phoenix-inst-chat-7b与 MOSS-moon-003-sft | 109.7% |
Phoenix-inst-chat-7b与 BELLE-7b-2m | 122.7% |
Phoenix-inst-chat-7b与 Chinese-Alpaca-7b | 135.3% |
Phoenix-inst-chat-7b与 Chinese-Alpaca-13b | 125.2% |
观察结果:Phoenix-chat-7b 的中文性能达到 ChatGPT 的 85.2%。它的表现略逊于百度文信(96.8%)和ChatGLM-6b(94.6%),两者都不是完全开源的;ChatGLM-6b 仅提供模型权重,不提供训练数据和详细信息。尽管Phoenix是多语言LLM,但它在所有开源中文LLM中取得了SOTA的表现。
- 人类评价:
赢 | 领带 | 失去 | |
---|---|---|---|
Phoenix 与ChatGPT | 12 | 35 | 53 |
菲尼克斯 vs. ChatGLM-6b | 36 | 11 | 53 |
凤凰 vs百度文信 | 29 | 25 | 46 |
菲尼克斯vs. BELLE-7b-2m | 55 | 31 | 14 |
凤凰VS 中国羊驼 13b | 56 | 31 | 13 |
观察结果:人工评价结果与自动评价结果呈现出相同的趋势。
英语
- 使用 GPT-4 自动评估:
模型 | 比率 |
---|---|
Chimera-chat-7b 与 ChatGPT | 85.2% |
Chimera-chat-13b 与 ChatGPT | 92.6% |
Chimera-inst-chat-13b 与 ChatGPT | 96.6% |
? 量化
我们提供 int8 和 int4 量化,这将大大减少 GPU 内存消耗,例如,phoenix 从约 28GB 减少到约 7GB。
整型8
使用cli inference时可以通过pass直接获取int8版本的phoenix --load-8bit
。例如,
python -m llmzoo.deploy.cli --model-path FreedomIntelligence/phoenix-inst-chat-7b --load-8bit
整数4
对于 int4 版本,我们利用 GPTQ。Phoenix
您可以通过传递 int4 版本模型并--load-4bit
使用 cli 推理来直接获取 int4 版本。这需要AutoGPTQ
安装软件包。例如,
python -m llmzoo.deploy.cli --model-path FreedomIntelligence/phoenix-inst-chat-7b-int4 --load-4bit
我们使用AutoGPTQ来支持Phoenix
,
BUILD_CUDA_EXT=0 pip install auto-gptq[triton]
对于Chimera
,由于限制,我们无法共享 int4 版本参数。您可以按照我们修补的AutoGPTQ中的示例自行进行量化。
感谢yhyu13 ,请检查chimera-inst-chat-13b-hf和chimera-inst-chat-13b-gptq-4bit中 chimera 的合并权重和 GPTQ 量化权重。
Inference in pure C/C++:您可以参考此链接来运行Chimera
或Phoenix
在您的PC上运行。
? 部署
启动控制器
python -m llmzoo.deploy.webapp.controller
开展劳动模范活动
python -m llmzoo.deploy.webapp.model_worker --model-path /path/to/weights/
启动 gradio Web 服务器
python -m llmzoo.deploy.webapp.gradio_web_server
现在,您可以打开浏览器并与模特聊天。
? 自己训练
准备数据
您可以下载phoenix-sft-data-v1数据或准备自己的数据。将您的数据放在路径上data/data.json
。
训练
对于Phoenix
,运行
bash scripts/train_phoenix_7b.sh
对于,按照此说明Chimera
准备 LLaMA 权重并运行
bash scripts/train_chimera_7b.sh
bash scripts/train_chimera_13b.sh
? 限制
我们发布模型的目标是帮助我们的社区更好地复制 ChatGPT/GPT4。我们的目标不是与其他竞争对手竞争,因为基准模型是一项具有挑战性的任务。我们的模型面临着与 ChatGPT/GPT4 类似的模型,其中包括:
-
缺乏常识:我们的模型可能并不总是能够将常识知识应用于具体情况,这可能会导致无意义或不恰当的反应。
-
有限的知识领域:我们的模型的知识基于其所训练的数据,并且可能无法在该领域之外提供准确或相关的响应。
-
偏差:我们的模型可能存在偏差,反映了其训练数据的偏差,这可能会导致意想不到的后果或不公平的待遇。
-
无法理解情绪:虽然我们的模型可以理解语言,但它可能并不总是能够理解语言背后的情绪基调,这可能会导致不恰当或不敏感的反应。
-
由于上下文造成的误解:我们的模型可能会误解对话的上下文,从而导致误解和错误的响应。
? 贡献者
LLM Zoo主要贡献者:
作为一个开源项目,我们愿意接受贡献。如果您有任何想法或发现任何问题,请随时贡献。
致谢
我们知道我们的作品受到以下作品的启发,包括但不限于
- 骆驼:https: //github.com/facebookresearch/llama
- 布鲁姆: https: //huggingface.co/bigscience/bloom
- 自指导: https: //github.com/yizhongw/self-instruct
- 羊驼毛: https: //github.com/tatsu-lab/stanford_alpaca
- 骆驼毛: https: //github.com/lm-sys/FastChat
没有这些,这个存储库中就不会发生任何事情。
引文
@article{phoenix-2023,
title={Phoenix: Democratizing ChatGPT across Languages},
author={Zhihong Chen and Feng Jiang and Junying Chen and Tiannan Wang and Fei Yu and Guiming Chen and Hongbo Zhang and Juhao Liang and Chen Zhang and Zhiyi Zhang and Jianquan Li and Xiang Wan and Benyou Wang and Haizhou Li},
journal={arXiv preprint arXiv:2304.10453},
year={2023}
}
@misc{llm-zoo-2023,
title={LLM Zoo: democratizing ChatGPT},
author={Zhihong Chen and Junying Chen and Hongbo Zhang and Feng Jiang and Guiming Chen and Fei Yu and Tiannan Wang and Juhao Liang and Chen Zhang and Zhiyi Zhang and Jianquan Li and Xiang Wan and Haizhou Li and Benyou Wang},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/FreedomIntelligence/LLMZoo}},
}
我们来自香港中文大学(深圳)数据科学学院(CUHKSZ)和深圳大数据研究院(SRIBD)。
数据统计
数据评估
本站IE网址导航号提供的LLMZoo都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由IE网址导航号实际控制,在2023-11-16 18:01收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,IE网址导航号不承担任何责任。