2025 年全球 AI 大模型参考手册：顶级公司与核心模型

#Innolight

2025年，人工智能大模型（LLM）与多模态模型的竞争进入白热化，全球顶尖科技公司和中国头部企业凭借卓越性能、开源策略和成本优势推动行业革新。本手册聚焦一流厂商（OpenAI、Anthropic、Meta、Google、xAI、Mistral、阿里云、百度、字节跳动、DeepSeek、智谱 AI、月之暗面、腾讯），精选性能强劲的模型，涵盖技术特点、发布时间、参数规模、关键基准与应用场景，帮助开发者、企业和研究者高效选型。选型时需权衡开源程度、推理能力、成本（<0.2元/百万token）及场景适配。注意，版本号并非绝对代表能力提升，需参考基准数据。

全球顶级公司

OpenAI：多模态与推理标杆

OpenAI 以通用性、多模态和生态整合引领行业，API 覆盖广泛场景。

GPT-4.1
发布时间：2025 年 4 月 14 日。
参数规模：约 1.8 万亿（估计）。
关键基准：AIME 2025 准确率 98.4%，MMLU 90+，支持 128K token 上下文。
特点：优化版 GPT-4，多语言工具调用，API 专供遗留系统。
应用场景：企业自动化（合同生成、报告撰写）、多轮客服对话。
o3
发布时间：2025 年 1 月 31 日（完整版）。
参数规模：未公开。
关键基准：AIME 2025 得分 99.5%，高在推理任务。
特点：旗舰推理模型，采用“思考链”机制，支持 Python 解释器和外部工具。
应用场景：科研（金融建模、物理模拟）、教育解题助手。
o4-mini
发布时间：2025 年 4 月 16 日。
参数规模：未公开。
关键基准：AIME 2025 通过率 99.5%，成本高效。
特点：紧凑多模态模型，响应快，支持图像输入。
应用场景：移动端 AI（实时图像分析）、边缘设备低功耗任务。
DALL·E 4
发布时间：2025 年 3 月 25 日。
参数规模：未公开。
关键基准：高精度图像生成，细节一致性强。
特点：文本到图像生成，集成 ChatGPT 生态。
应用场景：创意设计（广告素材、游戏资产原型）。
Whisper 3.5
发布时间：2023 年 11 月（v3 基础）。
参数规模：未公开。
关键基准：多语言转录准确率提升，噪声环境强。
特点：语音识别模型，优化多语言转录。
应用场景：语音转文本（会议记录、字幕生成）、多语言客服。

Anthropic：安全与代理导向

Anthropic 以“宪法 AI”确保安全，Claude 系列 2025 年扩展多款变体，强化编码、推理和多模态。

Claude Opus 4
发布时间：2025 年 5 月 22 日。
参数规模：未公开。
关键基准：SWE-bench 72.5%，Terminal-bench 43.2%。
特点：顶级编码模型，7 小时持续编码，1M token 上下文，网络搜索集成。
应用场景：软件开发（code review、DevOps管道）、复杂算法生成。
Claude Sonnet 4
发布时间：2025 年 5 月 22 日。
参数规模：未公开。
关键基准：高性能推理，平衡能力强。
特点：平衡型，强化指令遵循，1M token 上下文，文本+图像输入。
应用场景：法律文档分析、医疗诊断辅助、多轮客服对话。
Claude Haiku 4
发布时间：2025 年 5 月 22 日（Claude 4 系列）。
参数规模：未公开。
关键基准：实时交互优秀。
特点：轻量高效，推理速度快，成本低。
应用场景：智能家居语音助手、实时内容审核。
Claude 4 Pro
发布时间：2025 年 8 月 5 日（4.1 版本）。
参数规模：未公开。
关键基准：SWE-bench Verified 74.5%。
特点：增强版 Opus，2M token 上下文，多模态支持，复杂 Agent 任务。
应用场景：企业级多模态分析（视频审核、跨模态数据处理）、自动化工作流。
Claude 4 Mini
发布时间：2025 年 5 月 22 日。
参数规模：未公开。
关键基准：高频任务优秀。
特点：紧凑型，低延迟，成本仅 Opus 4 的 1/3。
应用场景：嵌入式设备（智能硬件交互）、实时客服。
Claude Vision 4
发布时间：2025 年 5 月 22 日。
参数规模：未公开。
关键基准：Chatbot Arena 视觉领先。
特点：视觉专用，图像/视频处理强。
应用场景：医疗影像分析、社交媒体内容审核、AR 导航。

Meta：开源多模态先锋

Meta 的 Llama 系列以高效开源著称，适合开发者社区和定制化部署。

Llama 4 Scout
发布时间：2025 年 4 月 5 日。
参数规模：109B 总，17B 活跃。
关键基准：MMMU 等视觉任务优秀。
特点：17B 参数多模态，支持文本、图像、视频，单 H100 GPU 运行。
应用场景：社交媒体内容生成（视频编辑）、AR/VR 原型开发。
Llama 4 Maverick
发布时间：2025 年 4 月 5 日。
参数规模：400B 总，17B 活跃。
关键基准：推理与编码媲美 DeepSeek V3。
特点：128 专家 MoE，17B 活跃参数。
应用场景：游戏动态环境生成、电商视觉搜索。
CodeLlama 4
发布时间：2025 年 4 月 5 日（Llama 4系列）。
参数规模：未公开（基于 Llama 4）。
关键基准：编程任务领先。
特点：编程专用，256K token 上下文，强化代码生成与调试。
应用场景：自动化代码补全、遗留代码迁移。
Llama 4 Vision
发布时间：2025 年 4 月 5 日。
参数规模：未公开。
关键基准：图像/视频处理接近 Qwen-VL 2.5。
特点：多模态视觉模型，图像/视频处理强。
应用场景：内容审核（社交媒体图像分析）、视觉搜索。

Google（DeepMind）：世界模型与速度优化

Google Gemini 系列融合多模态、世界模拟和教育优化，Flash 系列主打低延迟。

Gemini 2.5 Pro
发布时间：2025 年 3 月 25 日。
参数规模：未公开。
关键基准：USAMO 2025 金牌，推理强。
特点：1M token 上下文，集成 LearnLM，Deep Think 模式。
应用场景：学术研究（长文档总结、编程竞赛）、企业视频分析。
Gemini 2.5 Flash
发布时间：2025 年 8 月 26 日。
参数规模：未公开。
关键基准：速度超 2.0，成本高效。
特点：1M token 上下文，Thinking 模式、原生工具支持。
应用场景：实时任务（视频分析、代理开发）、高吞吐量企业。
Gemini 2.5 Flash-Lite
发布时间：2025 年 6 月 17 日。
参数规模：未公开。
关键基准：WebDev Arena 领先。
特点：优化高频任务，低延迟多模态。
应用场景：翻译/分类、移动端边缘计算。
Gemini 2.5 Flash Image
发布时间：2025 年 8 月 26 日。
参数规模：未公开。
关键基准：图像生成精度高。
特点：图像生成/编辑，多轮一致性强，定价 0.039 美元/张。
应用场景：创意工作流（图像原型、广告设计），Google AI Studio 集成。
Genie 3
发布时间：2025 年 8月 5 日。
参数规模：未公开。
关键基准：720p 环境生成，多分钟交互。
特点：世界模型，文本生成交互式 3D 环境，24fps 实时导航。
应用场景：机器人导航（自动驾驶仿真）、游戏AI世界构建。
Grokker
发布时间：未公开（Gemini 系列扩展）。
参数规模：未公开。
关键基准：教育推理突出。
特点：教育专用，个性化学习，数学与科学推理强。
应用场景：在线教育（自适应学习、学生辅导）。

xAI：真理寻求与工具集成

xAI 以高效训练和真实性为目标，Grok 系列强化推理与代理。

Grok 4
发布时间：2025 年 7 月 9 日。
参数规模：未公开。
关键基准：最强大模型，推理领先。
特点：全球顶尖，SuperGrok Heavy 变体，实时搜索，工具使用。
应用场景：科研（天文数据分析）、X 平台实时内容生成。
Grok 3
发布时间：2025 年 2 月 19 日。
参数规模：未公开。
关键基准：高在推理和多模态。
特点：200,000+ H100 GPU 训练，数学与编码领先，多模态支持。
应用场景：代理编码（自动化软件开发）、企业数据分析。
Grok Vision
发布时间：2025 年 2 月 19 日（Grok 3 扩展）。
参数规模：未公开。
关键基准：视觉任务优秀。
特点：视觉增强，实时图像处理与生成。
应用场景：医疗影像诊断、社交媒体图像审核。

Mistral：开源效率与欧洲创新

Mistral 以高效开源模型闻名，MoE 架构挑战 Llama。

Mixtral 8x22B
发布时间：2024 年 4 月 17 日。
参数规模：141B 总，39B 活跃。
关键基准：GSM8K 90.8%，Math 81.1%。
特点：MoE 模型，推理效率高，LiveBench 前十，开源商用友好。
应用场景：开发者工具（代码生成、调试）、企业知识管理。
Mistral Large 2
发布时间：2024 年 7 月 24 日。
参数规模：123B。
关键基准：高在多语言和数学。
特点：128K token 上下文，推理媲美 GPT-4.1，优化多语言和数学。
应用场景：多语言客服、科研模拟（数学建模）。
Codestral
发布时间：2024 年 5 月 29 日。
参数规模：22B。
关键基准：SWE-bench 领先。
特点：编程专用，支持多语言代码生成。
应用场景：自动化编程（DevOps、代码重构）。

中国顶级公司

阿里云：规模化开源与编程领先

阿里云 Qwen 系列突破万亿参数，Qwen3-Coder 登顶 Hugging Face。

Qwen 2.5-Max
发布时间：2024 年 9 月 19 日。
参数规模：72B。
关键基准：知识和数学增强。
特点：多模态旗舰，文本/图像/视频，混合思考模式优化 token。
应用场景：电商推荐（个性化搜索、图像识别）。
Qwen-3-Max-Preview
发布时间：2025 年 9 月 5 日。
参数规模：>1T。
关键基准：推理深度领先。
特点：文本专用，256K token 上下文。
应用场景：云端大数据分析（财务报告、医疗诊断）。
Qwen-VL 2.5
发布时间：2025 年 1 月 26 日。
参数规模：3B/7B/72B 变体。
关键基准：视觉推理强。
特点：视觉语言融合，图像/文本处理媲美 Gemini 2.5。
应用场景：智能零售（商品图像分析）、无人驾驶视觉任务。
Qwen3-Coder
发布时间：2025 年 7 月 22 日。
参数规模：480B 总，35B 活跃。
关键基准：SWE-bench/Mind2Web 登顶。
特点：MoE 模型，开源商用免费，Agent 能力超 Claude Sonnet 4。
应用场景：软件开发（代码生成、工作流自动化）、DevOps 管道。

百度：知识增强与生态闭环

百度 ERNIE 系列专利领先，文心一言生态日均调用超 16 亿次。

ERNIE 4.5 Turbo
发布时间：2025 年 4 月 25 日。
参数规模：未公开。
关键基准：SuperCLUE 领先。
特点：1M token 上下文，工具调用、多语言，知识图谱增强。
应用场景：智能搜索、文档问答、自动驾驶辅助（Apollo ADFM）。
ERNIE X1 Turbo
发布时间：2025 年 4 月 25 日。
参数规模：未公开。
关键基准：MMLU 90.8%。
特点：多模态旗舰，图像/视频处理安全系数高。
应用场景：内容生成、医疗影像分析、个性化推荐。
ERNIE Bot (文心一言)
发布时间：2023 年 3 月 16 日。
参数规模：260B（传闻）。
关键基准：通用对话优秀。
特点：通用对话，支持AI智能体，PaddlePaddle 高效训练。
应用场景：教育工具、客服系统、创意写作。

字节跳动：多模态内容创作引擎

字节跳动 Doubao/Seed 系列聚焦娱乐，SOLO 模式加速内容开发。

Doubao-1.5-pro
发布时间：2025 年 1 月 23 日。
参数规模：20B活跃（dense 等效 140B）。
关键基准：AIME 2025 优秀，数学/语言提升 19%。
特点：推理超 OpenAI o1，复杂指令与多模态。
应用场景：TikTok 视频脚本、推荐算法优化。
Seed-OSS-36B
发布时间：2025 年 8 月 20 日。
参数规模：36B。
关键基准：长上下文优秀。
特点：开源，长上下文，性能媲美 Qwen 2.5-Max。
应用场景：社交平台内容分析、广告优化。
Doubao-Vision
发布时间：2024 年 12 月 18 日。
参数规模：未公开。
关键基准：视觉任务领先。
特点：视觉专用，实时视频/图像处理高效。
应用场景：短视频自动剪辑、特效生成。

DeepSeek：高效开源推理王者

DeepSeek 以低成本训练震惊全球，R1 模型开源推理领先。

DeepSeek-R1
发布时间：2025 年 1 月 20 日。
参数规模：未公开。
关键基准：推理媲美 OpenAI o3。
特点：推理强，2000 H800 GPU 训练，成本仅闭源 1/10。
应用场景：初创编码（代码生成、调试）。
DeepSeek-V3-0324
发布时间：2025 年 3 月 25 日。
参数规模：671B 总，37B 活跃。
关键基准：推理提升。
特点：多模态中文优化，性能超 V2。
应用场景：企业数据可视化、多语言内容生成。
DeepSeek-Code
发布时间：2025 年 1 月 20 日（R1 扩展）。
参数规模：未公开。
关键基准：编码任务优秀。
特点：编程专用，CLI 工具集成，复杂算法优化。
应用场景：测试用例生成、代码重构。

智谱 AI（Zhipu AI）：MoE 架构与 AGI 先锋

智谱 AI 以开源 MoE 模型著称，GLM 系列在 LiveBench 排名前五，中文性能媲美 GPT-4。

GLM-4.5
发布时间：2025 年 7 月 28 日。
参数规模：355B 总，32B 活跃。
关键基准：SuperCLUE 前五。
特点：参数高效，256K token 上下文，合成数据训练，复杂推理 SOTA。
应用场景：代码生成、企业知识管理。
GLM-4.5V
发布时间：2025 年 7 月 28 日。
参数规模：未公开。
关键基准：Chatbot Arena 视觉领先。
特点：视觉多模态，支持网页/视频解读，超 DeepSeek 视觉基准。
应用场景：文档分析、视频理解、多代理交互。
GLM-4-Plus-0111
发布时间：2025 年 7 月（GLM-4系列）。
参数规模：未公开。
关键基准：SuperCLUE 第 14，低幻觉。
特点：推理优化版，支持多语言和长上下文。
应用场景：科研模拟（法律咨询、金融建模）。
ChatGLM-6B
发布时间：2023 年 3 月 13 日。
参数规模：6.2B。
关键基准：指令遵循优秀。
特点：开源模型，适配低资源环境。
应用场景：中小企业AI集成、开发者工具（对话系统）。
GLM-4-Agent
发布时间：2025 年 7 月 28 日。
参数规模：未公开。
关键基准：Agent 任务突出。
特点：智能体专用，支持多步任务规划，低延迟工具调用。
应用场景：自动化工作流（客服代理）、企业流程优化。

月之暗面（Moonshot AI）：长文本与代理专家

月之暗面以低成本和长文本处理见长，Kimi 系列开源 MoE 模型领先。

Kimi K2
发布时间：2025 年 7 月 11 日。
参数规模：1T 总，32B 活跃。
关键基准：SWE-bench 优秀。
特点：MoE 模型，编码超 Claude Opus 4，支持工具调用。
应用场景：代码调试、自动化工作流、开发者工具。
Kimi Mini
发布时间：2025 年 7 月 11 日（K2 系列）。
参数规模：未公开。
关键基准：实时任务优秀。
特点：轻量 dense 变体，适配低资源环境。
应用场景：移动即时翻译、语音助手。
Kimi Researcher
发布时间：2025 年 7 月 15 日。
参数规模：未公开。
关键基准：xbench 领先，HLE 考试超 Gemini 2.5 Pro。
特点：零结构强化学习，长时记忆，研究 Agent 强。
应用场景：科研 Agent、复杂问题求解。

腾讯：低延迟消费级平衡

腾讯 Hunyuan 系列集成 WeChat，强调速度和开源。

Hunyuan Turbo S
发布时间：2025 年 2 月 28 日。
参数规模：未公开。
关键基准：响应<1 秒，匹配 DeepSeek V3。
特点：响应时间短，知识与推理匹配 DeepSeek V3，成本低。
应用场景：游戏内 AI、即时客服。
Hunyuan-7B-Instruct
发布时间：2025 年 8 月 4 日。
参数规模：7B。
关键基准：AIME 81.1%。
特点：开源模型，GQA 混合推理速度优化。
应用场景：智能家居语音交互、移动 App 边缘计算。
Hunyuan-Vision
发布时间：2024 年 12 月 17 日。
参数规模：未公开。
关键基准：图像生成优秀。
特点：视觉增强，支持图像生成与分析，低功耗适配。
应用场景：社交内容审核、零售视觉搜索。

结语：选型建议与趋势展望

2025 年 AI 模型生态中美竞争激烈，中国模型（如 Qwen3-Coder、DeepSeek-R1）在开源和成本上领先，全球模型（如 Claude 4 Pro、Gemini 2.5 Flash）强在生态和多模态。版本号不等于能力提升，需参考基准如 AIME、SWE-bench。选型建议：编程/推理优先 Qwen3-Coder 或 DeepSeek-R1；多模态选 Qwen-VL 2.5 或 Gemini 2.5 Flash；企业合规用 Claude Sonnet 4 或 ERNIE 4.5 Turbo；实时消费用 Hunyuan Turbo S。未来，混合推理和 Agent 协同将主导，关注 Hugging Face 和 SuperCLUE 更新，确保高效部署。