网站简介:(科研)
BayLing(百临,bǎi líng)是一种具有高级语言对齐功能的指令跟踪大型语言模型,在英汉生成、指令跟踪和多轮交互方面表现出卓越的能力。BayLing可以轻松部署在具有16GB内存的消费级GPU上,并协助用户完成翻译、写作、创作、建议等任务……
如果BayLing对你有帮助,欢迎star这个repo?
? 了解更多关于BayLing的信息:
?演示版:欢迎申请试用BayLing的在线演示版(测试版)。
?论文:BayLing 的综合研究论文。
?主页:BayLing 的主页。您可以在这里了解BayLing的更多信息和案例。
✍️ BayLing-80 测试集:人工注释的评估集,包含中英文多轮指令,可用于评估法学硕士的多语言和多轮交互能力。
?型号:BayLing-7B-v1.0、BayLing-13B-v1.0、BayLing-13B-v1.1(最佳版本)
? 尝试BayLing 的在线演示?
BayLing由中国科学院计算技术研究所( ICT /CAS)NLP课题组开发
BayLing 正在不断优化? 如果您有任何建议,请联系
bayling@ict.ac.cn
。
? 新闻
[七月。[2023年06月06日] BayLing-13B-v1.1模型已发布,在BayLing-13B-v1.0的基础上额外注入了大量的中文知识。BayLing的在线演示也更新了。
[六月。2023 年 2 月 21 日] BayLing 的论文可用。
[六月。2023年12月15日] BayLing-7B和BayLing-13B的模型在Huggingface?中发布。
贝灵模型
- BayLing-13B-v1.1(当前探索BayLing的最佳选择)
- 基于BayLing-13B-v1.0继续学习更多中文知识。
- 为了节省启动步骤,Bayling-13B-v1.1 不是 diff 版本(
apply_delta.py
不是必需的)。请注意,请遵守License。
- BayLing-13B-v1.0(差异版本)
- 该模型可以重现BayLing论文中的结果。
- Weight-diff版本,可以通过 快速获取BayLing的参数
apply_delta.py
。
- BayLing-7B-v1.0(差异版本)
- 该模型可以重现BayLing论文中的结果。
- Weight-diff版本,可以通过 快速获取BayLing的参数
apply_delta.py
。
概述
试试贝灵
环境
-
克隆 BayLing 的仓库。
git clone https://github.com/ictnlp/BayLing.git cd BayLing
-
环境要求:Python 3.10、Pytorch 2.0、transformers 4.28.1、FastChat
pip install -r requirements.txt
模型
-
如果您下载BayLing-13B-v1.1,则可以直接使用,无需任何额外操作。
-
如果您下载BayLing-7B-v1.0或BayLing-13B-v1.0的权重差异版本,则应下载LLaMA-7B/13B的模型,并运行以下脚本以获取完整的 BayLing 参数
${PATH_TO_BAYLING}
。python apply_delta.py --base-model-path ${PATH_TO_LLAMA} \ --target-model-path ${PATH_TO_BAYLING} \ --delta-path ${PATH_TO_DOWNLOAD_BAYLING_DIFF}
命令交互
-
您可以使用此脚本从命令行快速与 BayLing 交互。
-
GPU内存要求:BayLing-7B至少10GB,BayLing-13B至少16GB。
-
没有可用的 GPU?欢迎尝试BayLing的在线演示?!
export CUDA_VISIBLE_DEVICES=0 python chat.py --model-path ${PATH_TO_BAYLING} --style rich --load-8bit
图形用户界面交互
-
您还可以基于FastChat使用 GUI 在您的个人设备上部署 BayLing 。
python -m fastchat.serve.controller & CUDA_VISIBLE_DEVICES=0 python model_worker.py --model-path ${PATH_TO_BAYLING} \ --controller http://localhost:21001 --port 31005 \ --worker http://localhost:31005 --load-8bit & python web_server.py
-
然后,您可以在浏览器中与BayLing进行交互。
贝灵有多好?
| 案例 | 多语言翻译 | 互动翻译 | 一般任务 | 标准化测试 |
案例
互动翻译
价值观
高考
通用的
知识
角色扮演
常识
推理
反事实
代码
写作
多语言翻译
- 我们在WMT22基准上评估了 BayLing 的多语言能力。我们将 BayLing-7B 和 BayLing-13B 与最先进的翻译模型进行比较,包括特定于翻译的大型模型(Google Translate、NLLB-3.3B)和通用指令跟踪 LLM(GPT-4、GPT-3.5) -turbo、ChatGLM-6B、BLOOMZ-7B1-MT、Vicuna-13B、ParroT-7B和Alpaca-7B)。
- 我们发布所有翻译结果。您可以将它们用作机器翻译研究的基线。
WMT22 汉译英 | WMT22 英汉互译 |
WMT22 德语-英语 | WMT22 英语-德语 |
WMT22 多语言基准(零样本设置) |
人工评估的交互式翻译
- 我们邀请了几位英语专业的注释者(通过了TEM-8)与BayLing和翻译任务基线进行交互,并给出了系统在三个能力上的排名。
- 下图展示了在人类评估中取得第一名的5个系统的比例。在评估翻译、指令跟随和多轮交互能力方面,BayLing-13B 分别以 18%、30% 和 20% 的情况被人类评为第一,仅次于ChatGPT。
翻译质量 | 遵循指令 | 多轮互动 |
GPT-4 评估的一般任务
- 我们扩展了Vicuna-80 测试集以包含多轮交互,创建了一个名为BayLing-80的多轮指令测试集。我们要求 GPT-4 对两个比较系统在 BayLing-80 上的响应进行评分,并选择获胜者。
- 当用 GPT-4 评估时,BayLing-13B 在 35% 的情况下优于 GPT3.5-turbo,在 45% 的情况下不比 GPT-3.5-turbo 差。
- 系统响应和 GPT-4 评论可以在此处找到。
英文单转指令 | 中文单圈指令 |
英文多轮指令 | 中文多圈指令 |
- BayLing-13B 与 GPT-3.5-turbo 的 9 项功能对比。
英文单转指令 | 中文单圈指令 |
英文多轮指令 | 中文多圈指令 |
高考和 SAT/GRE/GMAT/LSAT 标准化考试
- 我们根据AGIEval的中文和英文标准化测试对 BayLing 进行评估。
- 中文:高考。
系统 | 高考 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
平均。 | 中国人 | 英语 | 数学卡 | 物理 | 化学 | 生物学 | 历史 | 地理 | 数学完形填空 | |
GPT-3.5-涡轮 | 43.87 | 42.68 | 86.27 | 30.48 | 21:00 | 44.44 | 46.19 | 59.57 | 63.32 | 0.85 |
贝灵-13B | 32.13 | 29.27 | 69.28 | 29.34 | 21.50 | 36.71 | 30:00 | 34.04 | 38.19 | 0.85 |
贝灵-7B | 28.20 | 27.64 | 55.56 | 26.78 | 24.50 | 29.95 | 29.05 | 33.19 | 27.14 | 0.00 |
聊天GLM-6B | 31.83 | 31.71 | 52.29 | 26.50 | 16:00 | 27.54 | 28.10 | 54.04 | 47.74 | 2.54 |
骆驼毛-13B | 29.36 | 21.14 | 71.24 | 21.94 | 23:00 | 31.88 | 27.14 | 33.19 | 34.67 | 0.00 |
羊驼-7B | 20.03 | 24.80 | 36.27 | 17.95 | 6.00 | 20.77 | 20.95 | 24.68 | 27.14 | 1.69 |
- 英语:SAT、LSAT、公务员考试、GRE 和 GMAT。
系统 | 平均。 | SAT | GRE/GMAT 考试 | 法学院入学考试 | 公务员考试 | |||||
---|---|---|---|---|---|---|---|---|---|---|
SAT数学 | 佐恩 | 不带 通道的卫星 |
水鼠 | 阿尔卫星 | 卫星定位卫星 | lsat-rc | 洛吉卡恩 | 逻辑卡-zh | ||
GPT-3.5-涡轮 | 49.30 | 42.27 | 82.04 | 55.83 | 30.31 | 28.70 | 54.51 | 66.17 | 42.70 | 41.17 |
贝灵-13B | 35.31 | 27.27 | 55.34 | 38.35 | 22.83 | 22.61 | 38.04 | 42.38 | 35.64 | 31.80 |
贝灵-7B | 28.60 | 25.45 | 42.72 | 29.61 | 21.26 | 19.13 | 26.86 | 33.83 | 29.95 | 23.81 |
聊天GLM-6B | 32.79 | 27.73 | 56.31 | 37.86 | 16.54 | 19.57 | 38.04 | 33.09 | 33.18 | 30.57 |
骆驼毛-13B | 35.97 | 27.73 | 62.14 | 36.89 | 20.47 | 20.43 | 41.18 | 45.72 | 33.18 | 28.88 |
羊驼-7B | 24.03 | 21.36 | 28.16 | 29.13 | 18.11 | 19.13 | 22.35 | 26.02 | 27.96 | 21.51 |
局限性
尽管在某些方面表现出值得称赞的表现,BayLing 仍然表现出一些局限性。例如,当面对涉及事实知识的任务时,BayLing 有可能生成不准确的信息。此外,它缺乏解决推理、数学和编码任务的能力。此外,BayLing 还存在生成有害或带有偏见的内容的风险。
BayLing 是一个大型语言模型,与任何其他语言模型一样,无法保证生成内容的绝对准确性。请注意,本项目不承担任何与数据安全相关的风险和责任,不承担因开源模型和代码而产生的舆情风险,也不承担因模型误导、误用、传播或不当使用而产生的任何风险和责任。
执照
模型权重(增量版本)和推理代码根据 GNU 通用公共许可证 v3.0 (GPLv3) 发布。在线演示作为研究预览,仅供非商业用途,须遵守LLaMA 的模型许可证、 OpenAI 生成的数据的使用条款、 ShareGPT 的隐私惯例和WMT22 的数据许可证。
致谢
我们谨向所有为 BayLing 做出贡献的人们表示感谢。特别感谢王晓红女士对InforSuperBahn MLOps的使用提出的宝贵意见和建议,以及她在提供计算资源和展示BayLing方面的组织和资源支持。我们还要感谢刘晓东在分布式系统的构建和演示部署的总体协调中所发挥的关键作用。此外,我们还感谢南京InforSuperBahn研究所的开发团队在维护计算资源以及为BayLing的网页和演示创建显示界面方面做出的贡献。
作者
引文
如果我们的工作对您有帮助,请引用为:
@article{bayling,
title={BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models},
author={Shaolei Zhang and Qingkai Fang and Zhuocheng Zhang and Zhengrui Ma and Yan Zhou and Langlin Huang and Mengyu Bu and Shangtong Gui and Yunji Chen and Xilin Chen and Yang Feng},
journal={arXiv preprint arXiv:2306.10968},
year={2023},
url={https://arxiv.org/abs/2306.10968}
}
欢迎来到?BayLing并加入BayLing微信!
数据统计
数据评估
本站IE网址导航号提供的BayLing都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由IE网址导航号实际控制,在2023-11-16 18:03收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,IE网址导航号不承担任何责任。