Skip to content
Go back

大模型框架对比

Edit

上份工作的是 AI 项目,所以系统学习一下相关知识。

1. 推理/部署框架对比

框架名称核心技术亮点吞吐量水平易用性支持硬件(主流成熟支持)典型适用场景主要短板
vLLMPagedAttention + 连续批处理 + FlashInfer集成很高(生产基准强)NVIDIA GPU(H100/B200最佳)、AMD ROCm、Intel Gaudi、部分TPU高并发生产服务、企业级OpenAI兼容API、多模型实验LoRA支持仍需额外配置、极致单卡不如TRT-LLM
SGLangRadixAttention(前缀缓存) + 结构化输出(XGrammar) + 零开销批处理 + Agent流水线极高(共享前缀场景领先)中等NVIDIA GPU(Hopper/Blackwell最佳)、AMD ROCm(良好)复杂Agent、多轮对话、RAG、结构化/函数调用任务学习曲线较陡、早期依赖解析稍复杂、生态仍在快速迭代
TensorRT-LLMNVIDIA TensorRT深度内核优化 + MoE高效支持 + FP8/NVFP4最高(单卡/固定模型极致)中等(需编译)仅限NVIDIA GPU(H100/B200/L40S等最优)追求极致延迟与吞吐的长期生产环境(单一模型)仅NVIDIA、编译配置复杂、模型切换成本高
LMDeployTurboMind(C++极致优化) + PyTorch后端 + Persistent Batch很高(H100基准常与SGLang并列第一)NVIDIA GPU、华为昇腾(Ascend)、部分AMD国产化场景、多模态、混合硬件、量化推理社区规模小于vLLM、国际模型支持略滞后
Ollama基于llama.cpp封装 + OpenAI API兼容 + 一键管理中等极高(一键)CPU(x86/ARM)、NVIDIA、AMD ROCm、Apple Silicon(Metal)个人开发、本地快速原型、Mac用户、本地测试吞吐量不高、不适合高并发生产
llama.cppGGUF量化 + 多后端加速(cuBLAS/rocBLAS/Metal/Vulkan/SYCL)中等(边缘强)中等最广:CPU(x86/ARM)、NVIDIA、AMD、Apple Metal、Vulkan等边缘设备、低端硬件、本地离线、最大兼容场景吞吐量一般、分布式/高并发支持较弱
Hugging Face TGIFlashAttention + 连续批处理 + Rust核心实现很高NVIDIA GPU、AMD ROCm、Intel Gaudi、AWS Inferentia/TrainiumHF生态快速部署、研究实验、稳定生产性能略逊于vLLM/SGLang/LMDeploy
XInference多后端集成(vLLM/Transformers/GGUF等) + 分布式 + 多模态统一管理很高(分布式场景突出)NVIDIA、AMD ROCm、华为昇腾(部分)、CPU、分布式集群多模型统一管理、混合硬件集群、OpenAI兼容服务近期PyPI安全事件需谨慎(用官方最新版)、单机纯吞吐不如专注框架
LM Studio桌面 GUI + 本地服务器(llama.cpp + MLX)中等(依赖底层)极高(GUI最佳)CPU + NVIDIA + AMD + Apple Silicon (MLX)个人探索、模型测试、初学者、本地聊天、快速原型不适合高并发生产;GUI 开销;底层性能受 llama.cpp/MLX 限制;闭源部分较多
oMLXMLX-based inference server(带 paged SSD KV cache)高(Apple 单机,Agent 场景强)高(Mac 原生菜单栏 + API)仅 Apple SiliconMac 上复杂 Agent、长上下文编码、Coding Agent(Cursor/Claude Code 本地替代)仅限 Mac;社区较新;跨平台为零;高并发生产能力仍弱于 vLLM 类

推理/部署框架推荐

2. 量化框架对比

框架/方法核心技术亮点量化精度支持精度损失易用性典型速度/显存收益典型适用场景主要短板
GPTQ层级后训练量化(one-shot)INT4 / INT3 / INT2较小中等极高(2-4×)权重量化后离线部署不支持动态量化、对称性要求高
AWQ激活感知权重量化INT4 主力极小(SOTA之一)高精度 INT4 需求场景主要针对权重量化
bitsandbytesNF4 / FP4 + 双重量化8bit / 4bit(NF4)小~中等高(HF 集成)中~高训练时量化 + 推理(QLoRA 常用)推理速度不如专用内核
llama.cpp / GGUF混合精度 + k-quants(Q4_K_M 等)Q8_0 ~ Q2_K中等~较大中等高(CPU/GPU 均可)本地/边缘/低配机器量化部署精度损失相对明显
AutoAWQAWQ 的自动化实现 + HF 集成INT4 主力极小快速一键量化 HuggingFace 模型依赖 AWQ 核心
HQQHalf-Quadratic QuantizationINT4/2bit 等极小中等很高追求极致低比特高精度场景生态尚在快速发展

量化框架推荐

3. 微调框架对比

框架名称核心技术亮点支持微调方法显存效率易用性速度提升典型适用场景主要短板
Unsloth手动 Triton kernel 优化 + 4bit 免费LoRA / QLoRA / DoRA 等极高(2-5×)极高2-5× 更快单卡/消费级 GPU 快速微调目前主要支持主流模型
AxolotlYAML 配置化 + 支持多种后端Full / LoRA / QLoRA / RLHF 等较快需要高度自定义配置的微调项目初学者 YAML 学习成本稍高
LLaMA-Factory一站式 WebUI + 支持 100+ 模型LoRA / QLoRA / Full / DPO 等极高(有 UI)较快研究/教学/快速实验极致性能不如 Unsloth
torchtune纯 PyTorch 原生、无抽象LoRA / QLoRA / Full 等中等~高较快想要纯 PyTorch 控制感的开发者配置稍繁琐
PEFT (HuggingFace)官方参数高效微调库LoRA / AdaLoRA / Prompt Tuning 等高(与 HF 深度集成)中等与 Transformers 生态无缝结合的项目本身不提供训练加速

微调框架推荐

4. 智能体框架对比

框架名称开发者 / 组织主要语言核心焦点关键特性优势适用场景
CrewAICrewAI Inc.Python角色扮演式团队协作角色/任务分配、层次化流程、人类反馈循环、并行执行;轻量高效易用性极高快速原型、生产性能强;真实团队模拟业务自动化、内容生成、团队式复杂任务分解
LlamaAgentsLlamaIndex TeamPython数据密集型 RAG 代理强大检索增强、索引工具深度集成、多模态数据支持;易构建多代理系统检索与数据处理能力突出、知识密集任务优异RAG 应用、文档智能分析、知识库问答系统
LangGraphLangChainPython有状态图基工作流编排节点/边循环、分支控制、状态持久化、可视化调试;继承 LangChain 生态精确控制复杂分支与错误处理;调试与可视化最佳复杂状态工作流、持久化代理、多分支逻辑应用
OpenAI Agents SDKOpenAIPython (TypeScript 支持中)轻量级多代理工作流 + 守卫栏Handoffs、Guardrails、Tracing、Sessions;支持 100+ LLM、无状态到有状态生产就绪可观测性强、易扩展;官方继任 Swarm生产级多代理系统、实时协作、高守卫需求场景
Microsoft Agent FrameworkMicrosoft.NET / Python企业级多代理编排融合 AutoGen 与 Semantic Kernel;强化可观测性、合规性、Azure 深度集成企业级稳健性强、合规与安全优秀;实验→生产迁移顺畅企业工作流、合规严格自动化、Azure 生态集成
Agent Development Kit (ADK)GooglePython / Go / TypeScript / Java全生命周期开发与部署模块化设计、多模态流式支持、CLI + 本地 UI、A2A 协议;深度集成 Gemini / Vertex AI生产就绪、Google 生态集成紧密;多语言支持生产级应用、多模态任务、复杂业务自动化、Google Cloud
Strands AgentsAWSPython模型驱动自主代理异步工具调用、MCP/A2A 支持、AWS 原生集成(Bedrock/Lambda/EC2);几行代码建代理简洁高效生产部署极强;AWS 生态无缝企业级自动化、AWS 集成、高并发/模型驱动任务
Agnoagno-agiPython全栈多代理平台(框架 + 运行时)AgentOS 云运行时、MCP/A2A、记忆/知识/评估(Agent as Judge)、水平扩展、无状态缩放性能极致隐私云部署强;多模态/异步统一、高并发企业多代理系统、安全敏感产品、长任务/规模化场景

智能体框架推荐

智能体框架不推荐


Edit
Share this post on:

Previous Post
区块链对比
Next Post
港卡办理指南