4月以来,国产大模型迎来集中发布潮。4月30日,小米开源其首个推理大模型Xiaomi MiMo。其中经强化学习训练形成的MiMo-7B-RL模型,在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B参数量,得分超过了OpenAI的闭源推理模型o1-mini和阿里Qwen开源推理模型QwQ-32B-Preview。
4月29日,阿里巴巴最新发布了新一代通义千问Qwen3模型,参数量仅为DeepSeek-R1的1/3,首创"混合推理"设计,将“快思考”与“慢思考”集成进同一个模型,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
在4月25日举办的百度Create开发者大会上,百度发布了文心大模型4.5 Turbo、文心大模型X1 Turbo。4月17日,字节跳动正式发布豆包1.5深度思考模型。
另有媒体报道称,DeepSeek即将发布下一代AI大模型DeepSeek-R2,基于华为昇腾910B芯片集群训练,将采用自主研发的Hybrid MoE(混合专家模型)3.0架构,动态激活参数预计达1.2万亿,但实际计算消耗仅780亿参数,显著提升效率,在多模态能力方面将新增图像生成和视频理解能力,支持文生视频、图生视频任务。
部分代表性大模型整理,科股宝栏目组整理
据工信部数据,截至2024年10月,现有完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个,注册用户超过了6亿,相较2024年初实现了翻倍以上的增长。除了多模态能力的提升,随着DeepSeek R1/V3模型的推出,降本增效在2025年也成为大模型角逐的重要方向,国海证券指出,MoE与Transformer融合逐步成为主流架构。
本地化部署DeepSeek-R1-32B及以下模型仅需要消费级显卡。国泰海通证券指出,R1证明了国产模型在核心算法(如强化学习、蒸馏技术)上的领先性,摆脱了对“算力堆砌”路径的依赖。创业者无需承担千亿级token数据训练和千万美元级算力投入,即可通过微调构建垂直领域AI系统。这种“算法-数据-场景”的解耦设计,将AI能力供给从“重资产堆砌”转向“轻服务组合”,推动算力霸权向技术民主化演进,加速AI商业化进程,并促使OpenAI等竞品调整产品策略,进一步推进大模型免费化和开源化。
应用端,大模型应用正逐步从云端向终端设备延伸,从通用模型向垂直行业的定制化解决方案转变,已经开始在教育、医疗、汽车、办公、工业、智能硬件等B端和C端应用场景持续落地,大模型的商业价值和行业重塑价值正在加速释放。据高盛预测,基于大模型的生成式AI将推动未来10年全球GDP增长7%,约合近7万亿美元。
DeepSeek开源大模型通过“私有化部署+联邦学习+模块化定制”的三重技术架构,精准匹配B端市场对数据主权、场景适配与协作效率的核心诉求,成为驱动企业级AI需求爆发式增长的关键引擎。Gartner发布的2024年十大战略技术趋势指出,到2026年将有超过80%的企业使用生成式 AI。
在C端应用,智能手机有望成为用户使用大模型的重要调用窗口,AI手机具备支持AI大模型端侧部署、多模态能力、更强大的交互能力和拥有强大算力硬件平台的支持等特征。据Counterpoint Research预测,本地大模型参数的上限在2025年有望进一步增长至170亿,赋予AI手机更强的语义理解和情境感知能力、长文本、高分辨率图片的生成能力等多模态能力。阿里巴巴最新发布的Qwen3模型,也强调结合封装了工具调用模板和工具调用解析器的Qwen-Agent 框架,大幅降低了手机及电脑Agent调用工具的门槛。
风险提示:技术研发不及预期;算力和语料等对发展速度的限制;商业化进度不及预期。