一、介绍
目前,开源大小模型较多,在实际应用过程中遇到调试和问题点较多,本文是综合汇总集合,做测试使用可以,实际商业应用要慎重考虑!!!!!
基座模型通常指的是一个通用的、预先训练好的语言模型,如GPT-3.5。这种模型在各种自然语言处理任务中表现出色,可以用作其他更具体任务的基础。对话模型则是专门针对对话系统设计的模型,用于理解和生成对话。这些模型通常会在大规模对话数据上进行预训练,以便更好地理解和生成自然对话。
在实际场景中,通常会使用基座模型进行微调,以适应特定的任务或领域。基座模型已经在大规模的通用语言数据上进行了预训练,因此可以作为一个良好的起点,然后通过微调来使其适应特定的应用场景。
对话模型通常已经在对话数据上进行了预训练,因此在构建对话系统或进行对话相关的任务时,可以使用对话模型进行微调,以使其更好地理解和生成自然对话。
无论是使用基座模型还是对话模型进行微调,都需要根据具体的应用场景和任务需求来选择合适的模型,并进行相应的微调工作
大模型应用场景
二、选择适合您需求的开源 LLM
开源 LLM 空间正在迅速扩大。如今,开源 LLM 比私有 LLM 多得多,随着全球开发人员合作升级当前的 LLM 并设计更优化的 LLM,性能差距可能很快就会弥合。
在这个充满活力和令人兴奋的背景下,可能很难为您的目的选择合适的开源 LLM。以下是在选择一个特定的开源 LLM 之前您应该考虑的一些因素的列表:
您要做什么?
这是你要问自己的第一件事。开源 LLM 始终是开放的,但其中一些仅出于研究目的而发布。因此,如果您打算创办一家公司,请注意可能的许可限制。
为什么需要大语言模型?
这一点也非常重要。LLM 目前很流行。每个人都在谈论他们和他们无穷无尽的机会。但是,如果你可以在不需要 LLM 的情况下构建你的想法,那么就不要使用它们。这不是强制性的(您可能会节省很多钱并防止进一步使用资源)。
您需要多大的精度?
这是一个重要的方面。最先进的 LLM 的大小和准确性之间存在直接关系。这意味着,总的来说,LLM 在参数和训练数据方面越大,模型就越准确。因此,如果您需要高精度,您应该选择更大的 LLM,例如 LLaMA 或 Falcon。
你想投资多少钱?
这与上一个问题密切相关。模型越大,训练和操作模型所需的资源就越多。这意味着要使用额外的基础设施或云提供商的更高账单,以防您想在云中操作 LLM。LLM 是强大的工具,但它们需要大量资源才能使用它们,即使是开源的。
你能用预训练的模型实现你的目标吗?
如果你可以简单地使用预先训练的模型,为什么还要投入金钱和精力从头开始训练你的 LLM?有许多版本的开源 LLM 针对特定用例进行了训练。如果您的想法适合这些用例之一,那就为它而生。
- 目前已囊括83个大模型,覆盖chatgpt、gpt4、谷歌bard、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、微软new-bing、minimax等商用模型, 以及百川、qwen1.5、belle、chatglm、openbuddy、AquilaChat、vicuna、wizardLM、书生internLM2、llama3等开源大模型。
- 模型来源涉及国内外大厂、大模型创业公司、高校研究机构。
- 支持多维度能力评测,包括分类能力、信息抽取能力、阅读理解能力、数据分析能力、中文编码效率、中文指令遵从。
- 不仅提供能力评分排行榜,也提供所有模型的原始输出结果!有兴趣的朋友可以自己打分、自己排行!
四、主流大模型汇总
简介:整理开源的海内外大语言模型,以规模缩小、可试点化部署、成本降低的模型为主,包括基础模型、垂直领域调整及应用、数据集与等教程。
大模型 | 机构 | 类别 | 备注 |
---|---|---|---|
chatgpt-3.5 | openai | 商用 | 风靡世界的AI产品,API为gpt3.5-turbo |
gpt4 | openai | 商用 | 当前世界最强AI |
new-bing | 微软 | 商用 | bing搜索用的聊天模型,基于GPT4 |
文心一言 | 百度 | 商用 | 百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。 |
chatglm官方 | 智谱AI | 商用 | 一个具有问答、多轮对话和代码生成功能的中英双语模型,基于千亿基座 GLM-130B 开发,通过代码预训练、有监督微调等技术提升各项能力 |
讯飞星火 | 科大讯飞 | 商用 | 具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力 7 大核心能力。该大模型目前已在教育、办公、车载、数字员工等多个行业和产品中落地。 |
360智脑 | 奇虎360 | 商用 | – |
阿里通义千问 | 阿里巴巴 | 商用 | 通义千问支持多轮对话,可进行文案创作、逻辑推理,支持多种语言。 |
senseChat | 商汤 | 商用 | 商汤推出的聊天模型 |
minimax | minimax | 商用 | Glow app背后大模型 |
tigerbot-7b官网 | 虎博科技 | 商用/开源 | TigerBot 是一个多语言多任务的大规模语言模型(LLM),基于bloom模型结构。该模型也有开源版本。 |
chatglm-6b | 清华大学&智谱AI | 开源 | ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答 |
belle-llama-7b-2m | 链家科技 | 开源 | based on LLAMA 7B and finetuned with 2M Chinese data combined with 50,000 pieces of English data from the open source Stanford-Alpaca, resulting in good Chinese instruction understanding and response generation capabilities. |
BELLE-on-Open-Datasets | 链家科技 | 开源 | Extending the vocabulary with additional 50K tokens specific for Chinese and further pretraining these word embeddings on Chinese corpus. Full-parameter finetuning the model with instruction-following open datasets: alpaca, sharegpt, belle-3.5m. |
belle-llama-13b-2m | 链家科技 | 开源 | based on LLAMA 13B and finetuned with 2M Chinese data combined with 50,000 pieces of English data from the open source Stanford-Alpaca. |
belle-llama-13b-ext | 链家科技 | 开源 | Extending the vocabulary with additional 50K tokens specific for Chinese and further pretraining these word embeddings on Chinese corpus. Full-parameter finetuning the model with 4M high-quality instruction-following examples. |
BELLE-Llama2-13B-chat-0.4M | 链家科技 | 开源 | This model is obtained by fine-tuning the complete parameters using 0.4M Chinese instruction data on the original Llama2-13B-chat. |
Ziya-LLaMA-13B-v1 | IDEA研究院 | 开源 | 从LLaMA-13B开始重新构建中文词表,进行千亿token量级的已知的最大规模继续预训练,使模型具备原生中文能力。再经过500万条多任务样本的有监督微调(SFT)和综合人类反馈训练(RM+PPO+HFFT+COHFT+RBRS),进一步激发和加强各种AI任务能力。 |
Ziya-LLaMA-13B-v1.1 | IDEA研究院 | 开源 | 对Ziya-LLaMA-13B-v1模型进行继续优化,通过调整微调数据的比例和采用更优的强化学习策略,本版本在问答准确性、数学能力以及安全性等方面得到了提升 |
guanaco-7b | JosephusCheung | 开源 | Guanaco is an advanced instruction-following language model built on Meta’s LLaMA 7B model. Expanding upon the initial 52K dataset from the Alpaca model, an additional 534K+ entries have been incorporated, covering English, Simplified Chinese, Traditional Chinese (Taiwan), Traditional Chinese (Hong Kong), Japanese, Deutsch, and various linguistic and grammatical tasks. This wealth of data enables Guanaco to perform exceptionally well in multilingual environments. |
phoenix-inst-chat-7b | 香港中文大学 | 开源 | 基于BLOOMZ-7b1-mt,用Instruction + Conversation数据微调,具体数据见phoenix-sft-data-v1 |
linly-chatflow-13b | 深圳大学 | 开源 | 基于llama-13b,用5M 指令数据微调 |
Linly-Chinese-LLaMA2-13B | 深圳大学 | 开源 | Linly-Chinese-LLaMA2 基于 LLaMA2进行中文化训练,使用课程学习方法跨语言迁移,词表针对中文重新设计,数据分布更均衡,收敛更稳定。 |
MOSS-003-SFT | 复旦大学 | 开源 | MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。 |
AquilaChat-7B | 智源研究院 | 开源 | 悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。AquilaChat 对话模型支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。 |
tulu-30b | allenai | 开源 | We explore instruction-tuning popular base models on publicly available datasets. As part of this work we introduce Tülu, a suite of LLaMa models fully-finetuned on a strong mix of datasets! |
chatglm2-6b | 清华大学&智谱AI | 开源 | ChatGLM2-6B 是ChatGLM-6B 的第二代版本,更强大的性能,上下文长度从2K 扩展到了 32K,推理速度相比初代提升了 42%,允许商业使用。 |
Baichuan-13B-Chat | 百川智能 | 开源 | Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。 |
vicuna-33b | UC伯克利 | 开源 | Vicuna is a chat assistant trained by fine-tuning LLaMA on user-shared conversations collected from ShareGPT. |
wizardlm-13b | 微软 | 开源 | WizardLM: An Instruction-following LLM Using Evol-Instruct |
InternLM-Chat-7B | 上海人工智能实验室 | 开源 | 使用上万亿高质量语料,建立模型超强知识体系;支持8k语境窗口长度,实现更长输入与更强推理体验;通用工具调用能力,支持用户灵活自助搭建流程。 |
Llama-2-70b-chat | meta | 开源 | Meta developed and publicly released the Llama 2 family of large language models (LLMs), a collection of pretrained and fine-tuned generative text models ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama-2-Chat, are optimized for dialogue use cases. Llama-2-Chat models outperform open-source chat models on most benchmarks we tested, and in our human evaluations for helpfulness and safety, are on par with some popular closed-source models like ChatGPT and PaLM. |
NLP:
- THUDM:智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型
GLM-4-9B模型介绍
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。github:THUDM · GitHub
- 中文LLaMA大模型
🤗 Hugging Face • 🤖 ModelScope • 🐿️ 机器之心SOTA!模型 • 🟣 wisemodel • 🤗 在线Demo
本项目基于Meta最新发布的新一代开源大模型Llama-3开发,是Chinese-LLaMA-Alpaca开源大模型相关系列项目(一期、二期)的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力,相比二代相关模型获得了显著性能提升。
主要内容
- 🚀 开源Llama-3-Chinese基座模型和Llama-3-Chinese-Instruct指令模型(v1, v2, v3)
- 🚀 开源了预训练脚本、指令精调脚本,用户可根据需要进一步训练或微调模型
- 🚀 开源了alpaca_zh_51k, stem_zh_instruction, ruozhiba_gpt4 (4o/4T) 指令精调数据
- 🚀 提供了利用个人电脑CPU/GPU快速在本地进行大模型量化和部署的教程
- 🚀 支持🤗transformers, llama.cpp, text-generation-webui, vLLM, Ollama等Llama-3生态
中文Mixtral大模型 | 中文LLaMA-2&Alpaca-2大模型 | 中文LLaMA&Alpaca大模型 | 多模态中文LLaMA&Alpaca大模型 | 多模态VLE | 中文MiniRBT | 中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner | 蒸馏裁剪一体化GRAIN
🤗 Models on Hugging Face | Blog | Website | Get Started
Meta Llama 3
We are unlocking the power of large language models. Our latest version of Llama is now accessible to individuals, creators, researchers, and businesses of all sizes so that they can experiment, innovate, and scale their ideas responsibly.
This release includes model weights and starting code for pre-trained and instruction-tuned Llama 3 language models — including sizes of 8B to 70B parameters.
This repository is a minimal example of loading Llama 3 models and running inference. For more detailed examples, see llama-recipes.
开源下载地址:GitHub – meta-llama/llama3: The official Meta Llama 3 GitHub site
Mistral 7B
号称:目前为止最好的 7B 模型
Mistral AI | Frontier AI in your hands
Under the Apache 2.0 license, our 3 open source models Mistral 7B, Mixtral 8x7B, Mixtral 8x22B are usable and customisable for a variety of use cases. They can be downloaded or used on demand via our platform.
- Download them for deployment in your own environment
- Use them on La Plateforme at market-leading availability, speed, and quality control
FlagEmbedding
特征向量提取器,特别是在向量检索,相似度匹配等领域的表现,目前是最先进的模型
FlagEmbedding专注于检索增强llm领域,目前包括以下项目:
- Long-Context LLM: Activation Beacon, LongLLM QLoRA
- Fine-tuning of LM : LM-Cocktail
- Embedding Model: Visualized-BGE, BGE-M3, LLM Embedder, BGE Embedding
- Reranker Model: llm rerankers, BGE Reranker
- Benchmark: C-MTEB
更新
5/21/2024:联合 Jina AI、Zilliz、HuggingFace 等机构发布评测基准 AIR-Bench,针对检索任务和 RAG 场景设计。AIR-Bench 首次提出在检索任务中使用 LLMs 自动化生产评估数据,避免模型过拟合测试数据。AIR-Bench 不需要人工参与标注数据,因而可以更灵活覆盖更多垂直领域和不同语种。同时 AIR-Bench 会定期进行更新从而满足社区不断变化的评测需求。Leaderboard 🔥
零一万物开源Yi系列“理科状元”Yi-9B,消费级显卡可跑
官网:中文 – 零一万物-AI2.0大模型技术和应用的全球公司(01.AI)
零一万物发布并开源了Yi系列中的“理科状元”——Yi-9B。Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,实际参数为 8.8B,默认上下文长度4K tokens,是在 Yi-6B (使用了 3.1T tokens 训练)的基础上,使用了 0.8T tokens 进行继续训练。
官方总结Yi-9B的核心模型优势在于:
零一万物开源Yi系列“理科状元”Yi-9B,消费级显卡可跑,魔搭社区最佳实践教程来啦! (qq.com)
1. 消费级显卡可用,使用成本友好:
Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消费级显卡上轻松部署,使用成本较低,开发者友好。
2. 代码和数学能力出色,综合实力强劲
- 综合能力(Mean-All):在尺寸相近的开源模型(对比DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B)中表现优秀。
- 代码能力(Mean-Code):性能稍弱于 DeepSeek-Coder-7B,超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。
- 数学能力(Mean-Math):性能稍弱于 DeepSeek-Math-7B,超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。
- 常识和推理能力(Mean-Text):性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。
- 语言能力:相比于其他相近尺寸的模型,Yi-9B 不仅具备不错的英文能力,还拥有 Yi 系列模型广受好评的强大中文能力。
Now on Hugging Face|ModelScope|GitHub|Tech Report | Tech Blog
昆仑万维的Skywork-13B系列
Skywork是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有Skywork-13B-Base模型、Skywork-13B-Chat模型、Skywork-13B-Math模型和Skywork-13B-MM模型,以及每个模型的量化版模型,以支持用户在消费级显卡进行部署和推理。
我们开源的Skywork系列模型可以用于商业用途,但需要遵循我们的协议,不进行有害活动。Skywork开源项目的特点有:
-
Skywork-13B-Base模型在高质量清洗过滤的3.2万亿个多语言(主要是中文和英文)和代码数据上进行预训练,它在多种评测和各种基准测试上都展现了同等规模模型的最佳效果。
-
Skywork-13B-Chat模型具备强大的对话能力,我们在文创领域进行了进一步的针对性增强。我们通过构建一万多条高质量指令数据集,在10个文创任务上进行了针对性微调,使我们的模型在文创任务中能够接近ChatGPT的效果。此外,我们开源了针对这10个文创任务上的大约500条样本组成的benchmark。
-
Skywork-13B-Math模型经过专门的数学能力强化训练。在13B参数规模下,我们的模型在GSM8K评测上得分第一,同时在MATH数据集以及CMATH上也表现优异,处于13B模型顶尖水平。
-
Skywork-13B-MM多模态模型支持用户输入图片信息进行问答,对话等任务。
-
Skywork/Skypile-150B数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总的token数量约为150B,是目前开源最大中文数据集。
-
除此之外,我们还公开了训练Skywork-13B模型中使用的评估方法、数据配比研究和训练基础设施调优方案等信息。我们希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。
Skywork-13B-Base:该系列的基础模型,在多种基准评测中都拔得头筹的那种。
Skywork-13B-Math:该系列的数学模型,数学能力在GSM8K评测上得分第一。
在各大权威评测benchmark上,如C-Eval、MMLU、CMMLU、GSM8K,可以看到Skywork-13B在中文开源模型中处于前列,在同等参数规模下为最优水平。
昆仑万维Skywork-13B此次还配套了“轻量版”大模型,是在消费级显卡中就能部署和推理的那种!
Skywork-13B下载地址(Model Scope):
https://modelscope.cn/organization/skywork
Skywork-13B下载地址(Github):
https://github.com/SkyworkAI/Skywork
接下来,我们进一步来看下Skywork-13B系列更多的能力。
无需申请即可商用
Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多语言训练数据。
由此,模型在生成、创作、数学推理等任务上提升明显。
首先在中文语言建模困惑度评测中,Skywork-13B系列大模型超越了目前所有中文开源模型。
在科技、金融、政务、企业服务、文创、游戏等领域均表现出色。
模型下载
HuggingFace基础模型 | HuggingFace量化版模型 | ModelScope基础模型 | ModelScope量化版模型 | Wisemodel基础模型 | Wisemodel量化版模型 | OpenXLab基础模型 | OpenXLab量化版模型 | |
---|---|---|---|---|---|---|---|---|
Skywork-13B-Base | 🤗 Skywork-13B-Base | 🤗 Skywork-13B-Base-8bits | 🤖Skywork-13B-Base | 🤖 Skywork-13B-Base-8bits | 👾Skywork-13B-Base | 👾 Skywork-13B-Base-8bits | 🧰Skywork-13B-Base | 🧰 Skywork-13B-Base-8bits |
Skywork-13B-Chat | 🤗敬请期待 | 🤗敬请期待 | 🤖敬请期待 | 🤖敬请期待 | 👾敬请期待 | 👾敬请期待 | 🧰敬请期待 | 🧰敬请期待 |
Skywork-13B-Math | 🤗 Skywork-13B-Math | 🤗 Skywork-13B-Math-8bits | 🤖 Skywork-13B-Math | 🤖 Skywork-13B-Math-8bits | 👾Skywork-13B-Math | 👾 Skywork-13B-Math-8bits | 🧰Skywork-13B-Math | 🧰 Skywork-13B-Math-8bits |
Skywork-13B-MM | 🤗敬请期待 | – | 🤖敬请期待 | – | 👾敬请期待 | – | 🧰敬请期待 | – |
数据下载
数据集名称 | 下载地址 |
---|---|
Skywork/Skypile-150B | 🤗Hugging Face地址 |
评估集下载
数据集名称 | 下载地址 |
---|---|
Skywork/ChineseDomainModelingEval | 🤗Hugging Face地址 |
Skywork/mock_gsm8k_test | 🤗Hugging Face地址 |
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点:
- 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。
- 同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。
- 更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。
- 开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。
悟道·天鹰(Aquila) Read this in English.
悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
- 🌟 支持开源商用许可。Aquila系列模型的源代码基于 Apache 2.0 协议,模型权重基于《智源Aquila系列模型许可协议》,使用者在满足许可限制的情况下,可用于商业目的。
- ✍️ 具备中英文知识。Aquila系列模型在中英文高质量语料基础上从 0 开始训练,中文语料约占 40%,保证模型在预训练阶段就开始积累原生的中文世界知识,而非翻译而来的知识。
- 👮♀️符合国内数据合规需求。Aquila系列模型的中文语料来自智源多年积累的中文数据集,包括来自1万多个站源的中文互联网数据(其中99%以上为国内站源),以及获得国内权威机构支持的高质量中文文献数据、中文书籍数据等。我们仍在持续积累高质量、多样化的数据集,并源源不断加入Aquila基础模型后续训练中。
- 🎯持续迭代,持续开源开放。我们将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放更新的版本。
悟道 · 天鹰 Aquila 模型的更多细节将在官方技术报告中呈现。请关注官方渠道更新。包括 FlagAI GitHub仓库,FlagAI 知乎账号、FlagAI 官方技术交流群、智源研究院微信公众号、智源社区微信公众号。
模型 | 模型类型 | 简介 | 文件路径 | 单独下载模型权重 | 状态 | 训练所用显卡 |
---|---|---|---|---|---|---|
Aquila-7B | 基础模型,70亿参数 | Aquila 基础模型在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率。 | ./examples/Aquila/Aquila-pretrain | 下载Aquila-7B HF仓库地址 |
已发布 | Nvidia-A100 |
复旦大学 开源的MOSS
GitHub – OpenMOSS/MOSS: An open-source tool-augmented conversational language model from Fudan University
复旦大学 开源的MOSS是一个支持中英双语和多种插件的开源对话语言模型,moss-moon
系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
局限性:由于模型参数量较小和自回归生成范式,MOSS仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容,请谨慎鉴别和使用MOSS生成的内容,请勿将MOSS生成的有害内容传播至互联网。若产生不良后果,由传播者自负。
开源清单
模型
- moss-moon-003-base: MOSS-003基座模型,在高质量中英文语料上自监督预训练得到,预训练语料包含约700B单词,计算量约6.67×1022次浮点数运算。
- moss-moon-003-sft: 基座模型在约110万多轮对话数据上微调得到,具有指令遵循能力、多轮对话能力、规避有害请求能力。
- moss-moon-003-sft-plugin: 基座模型在约110万多轮对话数据和约30万插件增强的多轮对话数据上微调得到,在
moss-moon-003-sft
基础上还具备使用搜索引擎、文生图、计算器、解方程等四种插件的能力。 - moss-moon-003-sft-int4: 4bit量化版本的
moss-moon-003-sft
模型,约占用12GB显存即可进行推理。 - moss-moon-003-sft-int8: 8bit量化版本的
moss-moon-003-sft
模型,约占用24GB显存即可进行推理。 - moss-moon-003-sft-plugin-int4: 4bit量化版本的
moss-moon-003-sft-plugin
模型,约占用12GB显存即可进行推理。 - moss-moon-003-sft-plugin-int8: 8bit量化版本的
moss-moon-003-sft-plugin
模型,约占用24GB显存即可进行推理。 - moss-moon-003-pm: 在基于
moss-moon-003-sft
收集到的偏好反馈数据上训练得到的偏好模型,将在近期开源。 - moss-moon-003: 在
moss-moon-003-sft
基础上经过偏好模型moss-moon-003-pm
训练得到的最终模型,具备更好的事实性和安全性以及更稳定的回复质量,将在近期开源。 - moss-moon-003-plugin: 在
moss-moon-003-sft-plugin
基础上经过偏好模型moss-moon-003-pm
训练得到的最终模型,具备更强的意图理解能力和插件使用能力,将在近期开源。
数据
- moss-002-sft-data: MOSS-002所使用的多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由
text-davinci-003
生成的约57万条英文对话和59万条中文对话。 - moss-003-sft-data:
moss-moon-003-sft
所使用的多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo
构造而成,相比moss-002-sft-data
,moss-003-sft-data
更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。完整数据已全部开源。 - moss-003-sft-plugin-data:
moss-moon-003-sft-plugin
所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。已开源所有数据。 - moss-003-pm-data:
moss-moon-003-pm
所使用的偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft
所产生的回复数据上构造得到的偏好对比数据,将在近期开源。
工程方案
- MOSS Vortex – MOSS部署和推理方案
- MOSS WebSearchTool – MOSS搜索引擎插件部署方案
- MOSS Frontend – 基于flutter实现的MOSS-003前端界面
- MOSS Backend – 基于Go实现的MOSS-003后端
阿里巴巴集团QwenQwen
Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。
最新版本Qwen2有以下特点:
- 5种模型规模,包括0.5B、1.5B、7B、57B-A14B和72B;
- 针对每种尺寸提供基础模型和指令微调模型,并确保指令微调模型按照人类偏好进行校准;
- 基础模型和指令微调模型的多语言支持;
- 所有模型均稳定支持32K长度上下文;Qwen2-7B-Instruct与Qwen2-72B-Instruct可支持128K上下文(需额外配置)
- 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent等;
想了解更多信息,欢迎访问:
DeepSeek-V2-MoE-236B 简介
幻方量化旗下大模型企业深度求索开源的全球最大规模的大语言模型,参数数量2360亿,是一个基于混合专家架构的模型,每次推理激活其中的210亿参数。
DeepSeek-V2-236B是在8.1万亿tokens数据集上训练得到,并且官方还开源了一个做过有监督微调和强化学习对齐的版本。
Apollo-7B 简介
尽管庞大的全球医学知识库以英语为主,但当地语言对于提供量身定制的医疗保健服务至关重要,尤其是在医疗资源有限的地区。为了将医学人工智能的进步推广到更广泛的人群中,我们致力于开发六种使用最广泛的语言的医学 LLM,涵盖全球 61 亿人口。最终,我们创建了 ApolloCorpora 多语种医疗数据集和 XMedBench 基准。在多语言医疗基准测试中,已发布的 Apollo 模型在各种相对较小的规模(即 0.5B、1.8B、2B、6B 和 7B)下,在同等规模的模型中取得了最佳性能。特别是阿波罗-7B,它是最大可达 70B 的最先进的多语言医学 LLM。此外,这些精简模型还可用于提高大型模型的多语言医疗能力,而无需以代理调整的方式进行微调。我们将开源训练语料、代码、模型权重和评估基准。
google Gemma
Gemma is a family of open-weights Large Language Model (LLM) by Google DeepMind, based on Gemini research and technology.
Model Page: Gemma
This model card corresponds to the 7B base version of the Gemma model. You can also visit the model card of the 2B base model, 7B instruct model, and 2B instruct model.
Resources and Technical Documentation:
- Gemma Technical Report
- Responsible Generative AI Toolkit
- Gemma on Kaggle
- Gemma on Vertex Model Garden
Chinese Pretrained Model – Bee 简介
CPM-Bee是清华大学NLP实验室发布的一个中文大语言模型。完全开源!
—————–2023年6月30日———————
基于CPM-Bee的多模态大模型VisCPM发布: https://www.datalearner.com/blog/1051688132077366
—————–2023年6月27日———————
CPM-Bee发布一个月之后的功能更新: https://datalearner.com/blog/1051687966305189
—————–2023年5月27日———————
关于CPM-Bee的详细介绍: https://www.datalearner.com/blog/1051685537043575
CPM-Bee模型参数 | CPM-Bee模型参数结果 |
---|---|
模型名称 | CPM-Bee |
模型架构 | transformer |
基础模型 | CPM-Ant |
模型最大参数 | 10亿 |
训练时间 | 2022年10月13日-2023年5月27日 |
模型类型 | 基础语言模型 |
训练数据集 | 200GB高质量中文数据集+400GB多语言数据集 |
训练数据集tokens数 | 1万亿 |
CPM-Bee包含4个版本,其具体参数和预训练结果下载地址参考:
CPM-Bee模型版本 | 推理的显存 | 预训练结果下载地址 | 推荐的硬件 |
---|---|---|---|
CPM-Bee-10B | 20GB | https://huggingface.co/openbmb/cpm-bee-10b/tree/main | RTX3090(24GB) |
CPM-Bee-5B | 11 GB | https://huggingface.co/openbmb/cpm-bee-5b/tree/main | RTX 3090(24 GB) |
CPM-Bee-2B | 6.7 GB | https://huggingface.co/openbmb/cpm-bee-2b/tree/main | GTX 1080(8 GB) |
CPM-Bee-1B | 4.1 GB | https://huggingface.co/openbmb/cpm-bee-1b/tree/main | GTX 1660(6 GB) |
二、模型下载的常见方法
因为大模型动辄十几GB的大小,因为对于开发人员来说,环境搭好了,模型还要好几个小时以下是国内下载大模型的极速通道:替代 Huggingface 的优选方案
在 AI 领域,大模型的下载对于研究和开发至关重要。然而,由于网络环境的特殊性,国内用户往往难以直接访问 Huggingface.co 来获取所需资源。幸运的是,国内也有多个平台提供了优秀的替代方案。以下是一些值得推荐的国内大模型下载途径:
huggingface 镜像站
特点:这个镜像站为用户提供了一种简便快捷的方式来下载热门模型。网站首页详细介绍了使用方法,操作简单,下载速度令人满意。
阿里巴巴的模搭社区
特点:模搭社区是国内活跃度极高的模型共享平台,它不仅提供了丰富的模型分享,还支持数据集共享、在线运行环境创空间以及在线 notebook 等功能。此外,模搭社区的公众号经常发布高质量的技术文章,是 AI 爱好者的知识宝库。
Gitee AI
网址:ai.gitee.com
特点:作为国内知名的代码托管平台,Gitee 的 AI 子站目前虽处于测试阶段,但已提供了众多模型的下载服务,并且下载速度迅速,对于国内开发者来说是一个便捷的选择。
始智AI wisemodel
网址:wisemodel.cn
特点:wisemodel 是国内另一个值得关注的模型共享平台,它提供了丰富的模型资源,下载速度同样令人满意,为国内用户提供了另一种优质的选择。
AI快站
特点:AI快站是一个专注于提供HuggingFace模型免费加速下载服务的平台,旨在为AI开发者解决大模型下载中的常见问题。网站有具体的使用方法。
资料下载:
大模型-电子书书籍链接:https://pan.baidu.com/s/1LrJH5ToebrwWYSK_DbAa6A
提取码:8888
大模型Langchain-Chatchat部署及文档:链接:https://pan.baidu.com/s/1nRZdrn7CEGjsnVdngV3j5A
提取码:8888
大模型-chatGPT电子书资料链接:https://pan.baidu.com/s/1rSUTuUVRpi-xEnAAfDo-jg
提取码:8888
大模型-RAG+LLM电子书资料链接:https://pan.baidu.com/s/1roiKs3DIgl7FFg_M7j5RSg
提取码:8888
《大模型落地应用案例集》链接:https://pan.baidu.com/s/1TLbRFf68qdToq74r57c74A
提取码:8888
8个精选AIGC项目实战案例链接:https://pan.xunlei.com/s/VO-4MVY9zkSJ3DrCBVMc_0RoA1?pwd=xy7x# 提取码:xy7x
0-1视频学习https://www.bilibili.com/video/BV1hm411m7NF/?p=2&spm_id_from=pageDriver&vd_source=4e8c30c30b69c57b5b3925f28d5e45e4
640套-AI大模型报告合集.rar,链接:https://pan.xunlei.com/s/VO-5NhVFiZAJwpK3raCca6EbA1?pwd=cvui 提取码:cvui
人工智能路线图+NLP知识路线图+计算机视觉路线图链接:https://pan.baidu.com/s/1MghVXTH5y2mbTaU6Mc1dUw
提取码:8888
参考:
AI领域常用大模型地址及下载方法(持续更新)_ai模型下载-CSDN博客
2024 年 8 个顶级开源 LLM(大语言模型)_开源llm-CSDN博客
大模型综合评测对比 | 当前主流大模型在各评测数据集上的表现总榜单 | 数据学习 (DataLearner)
欢迎大家加入微信技术交流群,接受最新的AI模型和技术推送,由于群满可以加我个人微信邀请入群。
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/313665.html