人工智能
-
GPUStack 中集成基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei 专注于文…
-
制作并量化GGUF模型上传到HuggingFace和ModelScope
llama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现,也是 GPUStack 所支持的推理引擎之一,它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于存储模型以进行推理的文件格式…
-
通过GPUStack在昇腾Ascend 910B上运行Qwen2.5推理
目前在国产 AI 芯片,例如昇腾 NPU 上运行大模型是一项广泛且迫切的需求,然而当前的生态还远未成熟。从底层芯片的算力性能、计算架构的算子优化,到上层推理框架对各种模型的支持及推理加速,仍有很多需要完善的地…
-
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略 GPUStack 是一个专为运行大语言模型(LLM)设计的开源 GPU 集群管理器,旨在支持基于任何品牌的异构 GPU 构建统一管理的算力集群,无论这些 GPU 运行在 Ap…
-
GPUStack正式发布: 为大模型而生的开源GPU集群管理器
GPUStack正式发布: 为大模型而生的开源GPU集群管理器 经过 Seal 研发团队几个月来持续的开发和测试,我们满怀期待及热情地发布新的产品 GPUStack,GPUStack 是一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理…
-
GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计
GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计。它配置和编排推理引擎(vLLM、SGLang、TensorRT-LLM 或您自定义的引擎),以优化跨 GPU 集群的性能。其核心功能包括: 多集群 GPU 管理。 跨…
-
谷歌DeepMind正式发布Gemma 4,一口气放出四款开源模型
凌晨,谷歌DeepMind正式发布Gemma 4,一口气放出四款开源模型。 从能塞进手机的2B,到可以单卡跑满的31B,四个尺寸全覆盖,全部基于Gemini 3同源打造。 时隔一年,Gemma 4终于来了,实力迎来史诗级跃迁。 最炸的一…
-
昇腾+verl:基于昇腾超节点DeepSeek R1模型RL训练优化实践
现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为…
-
昇腾大模型解决方案
昇腾AI全流程使能大模型创新落地 从大模型的开发训练到推理部署,昇腾AI全流程使能大模型创新落地 大模型生态全景图 基于昇腾原生孵化及迁移适配的大模型 昇腾大模型解决方案-文档课程资源-昇腾社区
-
KunLun AI Space基于昇腾实现DeepSeek V3.1 FP8推理
在 AI 技术飞速迭代的今天,大模型的“高效部署”已成为企业落地的核心痛点 —— 既要保证推理精度,又要控制硬件成本,如何平衡两者? 近期发布的 DeepSeek V3.1 大模型,因搭载了FP8精度格式(UE8M0 FP8)引发业界关…