当前大语言模型的发展呈现出明显的「双轨并行」:一方面,前沿模型规模持续迈向百万亿参数(GPT-5 级别传闻具备 1.8T 参数,采用 MoE 架构),上下文窗口扩展至 10M token,支持整本书籍的推理;另一方面,小参数高性能模型(如 Phi-3-mini、Gemma 2、Qwen2.5 系列)通过数据合成与知识蒸馏,在端侧实现接近 GPT-3.5 的性能,加速移动端与 PC 的离线智能。
GPT-4o、Gemini 2.0、Claude 3.5 Sonnet 等原生多模态模型成为主流,实时视频理解与语音对话延迟降低到 300ms 以内。文生图/视频领域 Sora、Stable Diffusion 3.5 以及可灵、Luma 等引爆创意产业,多模态从「拼接」走向「统一表征」。
具身多模态 成为新热点:机器人通过视觉-语言-动作(VLA)模型直接学习复杂操作,例如 Google DeepMind 的 RT-2 以及 Figure 01 的端到端控制。
2024-2025 年被普遍视为 Agent 元年。大模型从“聊天”进化为“行动”:AutoGPT、Devin、Cognition 等自主编程智能体已能完成小型项目开发;企业级 Agent 平台(微软 Copilot Studio,字节扣子)允许非技术人员搭建自动化流程。
高通骁龙 8 Gen 4、苹果 A18 以及 Intel Lunar Lake 均内置 40+ TOPS NPU,使得 Apple Intelligence、荣耀任意门 等端侧功能实现实时摘要、生成图像,且数据不出设备。端侧模型(谷歌 Nano、微软 Phi Silica)成为隐私计算的关键。
欧盟《AI 法案》分层实施,中国《生成式 AI 服务管理办法》持续细化,美国 NIST 发布 AI 风险管理框架。具体方向包括:
可解释性工具(SHAP、注意力可视化)成为企业采购 AI 的标配,尤其在金融、医疗领域。
生命科学: AlphaFold 3 预测几乎所有分子相互作用,生成式 AI 设计新蛋白与抗体进入临床;金融: 多模态风控整合舆情、财报、视频尽调;制造: 神经符号 AI 优化柔性产线,数字孪生结合生成式模拟。
人形机器人 + 大模型成为 2025 年融资最密集领域。特斯拉 Optimus、Figure 02 以及 1X 等接入 VLM,实现语义导航与精细操作。世界模型(World Model)概念再度升温,通过预测动作后果来构建通用物理直觉。
AGI 虽未实现,但“能解决大部分经济工作”的强智能体已现苗头:一些研究者认为 2027 年前后可能出现具有博士级科研能力的 AI 科学家(目前 Sakana AI 已展示 AI 科研雏形)。
AI for Science 深度融合:核聚变控制、气候模拟、量子化学等领域大模型加速科学发现。