-
置顶 DeepSeek-V3.1-GGUF 1-bit~16-bit 对比和选择
核心定义与背景 DeepSeek-V3.1 基础模型 总参数 685B、单 token 激活 37B 参数,上下文 128K,支持混合推理(思考 / 非思考模式),编程、长文本、工具调用能力突出。 原生支持 FP16/BF16/FP8 等精度,GGUF 是社区…
-
置顶 AI大模型量化方法及下载地址
1. 什么是模型量化 模型量化是将高精度的模型(通常为 32 位浮点数 FP32 或 16 位浮点数 FP16 )的权重和激活值转换为低精度模型(如 8 位整数 INT8)的过程。 FP32 的值范围为 -3.4*10^38 到 3.4*10^38,有 40 亿…
-
置顶 银河麒麟(KylinOS)下DeepSeek的四种使用场景
如何在银河麒麟使用DeepSeek?最近国内AI大模型DeepSeek爆火,相信使用银河麒麟操作系统的用户也非常急迫的想体验一把,接下来,一文给大家介绍在银河麒麟操作系统玩转DeepSeek的四种场景! 四种使用场景 一、网页…
-
置顶 安装银河麒麟桌面系统V10【超详细图文教程】
1、下载安装镜像 1.1 申请试用 银河麒麟官网提供免费试用下载,需要申请一下。打开 https://www.kylinos.cn/support/trial.html 填上相应信息后提交。 1.2 下载 提交成功会转到下载页面,根据CPU架构选择要下载的安…
-
置顶 GitHub 镜像站点
国内访问 GitHub 有时会遇到速度慢或不稳定的情况,这时 GitHub 镜像站点就能帮上忙。它们通过代理或缓存机制,让你更顺畅地浏览仓库、下载资源甚至克隆代码。 下面表格汇总了一些常见的镜像站及其主要用途 镜像站…
-
置顶 2024年国内外AI领域开源常用大模型资料汇集及资源下载部署方法(持续更新中)
一、介绍 目前,开源大小模型较多,在实际应用过程中遇到调试和问题点较多,本文是综合汇总集合,做测试使用可以,实际商业应用要慎重考虑!!!!! 基座模型通常指的是一个通用的、预先训练好的语言模型,如GPT-3…
-
告别Windows依赖锁死!.NET 10加持C#上位机,国产Linux系统性能翻倍与7*24h稳定性验证全实战
在智能制造信创国产化的深水区,工业自动化领域的上位机系统正面临前所未有的迁移压力:传统Windows+WPF架构的工控程序,被要求快速适配统信UOS/银河麒麟+鲲鹏/飞腾/龙芯的国产软硬件环境。但绝大多数开发团队在迁…
-
DeepSeek V4 弃用英伟达跑华为昇腾 × GPT-6“土豆“4.14发布——CUDA到CANN迁移踩坑和模型选型
一、DeepSeek V4:CUDA迁移到CANN,这次是认真的 1.1 基本情况 The Information 4月3号的独家报道,五个知情人士给出了一致说法: 维度 规格 备注 参数量 1.2万亿 Ultra-MoE稀疏激活 芯片 华为昇腾950PR 替代NVIDIA…
-
GPUStack 在华为昇腾 800I A2 服务器上的保姆级部署指南
随着国产 AI 芯片生态的日益成熟,华为昇腾(Ascend)系列 NPU 已成为大模型私有化部署的重要选择。GPUStack 作为一个开源的、支持异构算力(包括 NVIDIA、AMD、Apple Silicon 以及华为昇腾等)的集群管理器,自 v0…
-
GPUStack 中集成基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei 专注于文…
-
制作并量化GGUF模型上传到HuggingFace和ModelScope
llama.cpp 是 Ollama、LMStudio 和其他很多热门项目的底层实现,也是 GPUStack 所支持的推理引擎之一,它提供了 GGUF 模型文件格式。GGUF (General Gaussian U-Net Format) 是一种用于存储模型以进行推理的文件格式…
-
通过GPUStack在昇腾Ascend 910B上运行Qwen2.5推理
目前在国产 AI 芯片,例如昇腾 NPU 上运行大模型是一项广泛且迫切的需求,然而当前的生态还远未成熟。从底层芯片的算力性能、计算架构的算子优化,到上层推理框架对各种模型的支持及推理加速,仍有很多需要完善的地…
-
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略
GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略 GPUStack 是一个专为运行大语言模型(LLM)设计的开源 GPU 集群管理器,旨在支持基于任何品牌的异构 GPU 构建统一管理的算力集群,无论这些 GPU 运行在 Ap…
-
GPUStack正式发布: 为大模型而生的开源GPU集群管理器
GPUStack正式发布: 为大模型而生的开源GPU集群管理器 经过 Seal 研发团队几个月来持续的开发和测试,我们满怀期待及热情地发布新的产品 GPUStack,GPUStack 是一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理…
-
GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计
GPUStack 是一个开源的 GPU 集群管理器,专为高效的 AI 模型部署而设计。它配置和编排推理引擎(vLLM、SGLang、TensorRT-LLM 或您自定义的引擎),以优化跨 GPU 集群的性能。其核心功能包括: 多集群 GPU 管理。 跨…
-
谷歌DeepMind正式发布Gemma 4,一口气放出四款开源模型
凌晨,谷歌DeepMind正式发布Gemma 4,一口气放出四款开源模型。 从能塞进手机的2B,到可以单卡跑满的31B,四个尺寸全覆盖,全部基于Gemini 3同源打造。 时隔一年,Gemma 4终于来了,实力迎来史诗级跃迁。 最炸的一…
-
GoldenDB基于MySQL数据库下载安装指南
一、GoldenDB数据库简介 GoldenDB是中兴通讯推出的金融级分布式数据库,基于MySQL内核深度优化,具备高可用、高性能、强一致等特性,广泛应用于金融、电信等行业核心系统。 二、GoldenDB下载准备 系统要求:Linux操…
-
同一服务器下,不同WordPress站点使用同一个Redis库方法
最近,有两个wordpress主题需要测试,所以在同一服务器上的同一php运行环境下搭建了两套Wordpress程序。 形如: 复制复制复制 复制 a.ytso.com b.ytso.com 但在开启Redis缓存的时候,没有进行设置,两个站点同…
-
创建你自己的私有 LoRa 网络
有大量关于 LoRa 的讨论,低功耗、广域网保证了几公里范围内的通信,因此非常适合网联网通信。电信运营商正在推出 LoRa 网络,由于 LoRa 在开放的频谱范围内运行,你还可以设置自己的网络。本文讨论了构建私有 LoRa…
-
2025年LoRa与LoRaWAN模组TOP10品牌排名
2025年LoRaWAN市场格局与战略展望 市场预测与增长轨迹 进入2025年,全球物联网(IoT)市场持续扩张,对低功耗广域网络(LPWAN)技术的需求日益增长,其中LoRaWAN凭借其技术特性和成熟的生态系统,正…