阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

招银国际：降和黄医药目标价至31.39港元维持“买入”评级科技水平又一个里程碑 生意社：8月11日恒力石化ABS装置动态 宁德时代确认宜春锂矿暂停开采，赣锋锂业等矿企股价、碳酸锂期货纷纷大涨 龙国车商在俄这5年：暴利期、退场者与新生存法则 工程机械行业财务总监CFO观察：中际联合任慧玲为大专学历薪酬高达284万元为行业第二记者时时跟进 生意社：8月11日恒力石化ABS装置动态后续反转来了 连续三周新基募集超30只！权益基金占比超八成，指数型成主流！ 专用设备行业财务总监CFO观察：福斯达冯庆生仅高中学历年龄63岁 2024年薪酬为47万元是真的吗？ 建银国际：上调百济神州目标价至230港元维持“跑赢大市”评级 美国洞洞鞋巨头股价暴跌30%后续反转来了 事关稳定币！蚂蚁集团辟谣实时报道 高盛指人民币汇率将继续逐步向7迈进 休闲食品概念震荡拉升，桂发祥涨停官方已经证实 每日早报8.11｜高位震荡，个股活跃官方通报来了 【龙国银河固收】周报 | 债市震荡偏多，关注交易性机会后续反转来了 佳创视讯连亏6年拟易主 “接盘”夫妇旗下锂电设备厂重启IPO尚无实质进展|速读公告 中小盘指数创阶段新高相关主题基金限购或调仓 调研汇总：富国、易方达、兴全基金等78家明星机构调研新洋丰！ 【银河晨报】8.11丨宏观：反内卷效果需抱以耐心秒懂 海康威视牵头启动城市生命线物联技术课题，助推城市生命线建设升级官方通报 美国如何给芯片安“后门”官方通报来了 每日早报8.11｜高位震荡，个股活跃后续反转来了 【电力*袁理】香港RWA注册平台上线，继续关注RWA对虚拟电厂、电交易、碳交易的赋能记者时时跟进 【泡泡玛特*张良卫】深度复盘：形象型IP商业价值与企业成长经验启示实测是真的 【龙国银河固收】周报 | 债市震荡偏多，关注交易性机会官方处理结果 龙国新零售供应链将于8月11日上午起复牌科技水平又一个里程碑 中信建投：EPS与PE双击有色牛市行情再启动 活跃资金入市形成正反馈机制机构认为A股仍有上行动能 小米汽车公布碰撞检测专利，有利于保障用户人身安全 博时宏观观点：降息预期升温，看好科技成长行情 *ST汇科、*ST高鸿收到行政处罚事先告知书投资者可参与索赔这么做真的好么？ 行动教育：上半年归母净利润1.31亿元，同比下降3.51%这么做真的好么？ 南卫股份高管涉内幕交易，投资者权益如何保障？ 百万吨乙烯项目获重大突破，这个国产装备打破国外垄断！秒懂 际华集团（601718）被立案，股民索赔可期学习了 “著名反指”美银调查：机构对经济和AI更乐观，对龙国更乐观，加密货币和黄金持仓很低后续反转 小米汽车公布碰撞检测专利，有利于保障用户人身安全 罗志恒：全球关税——起源、演进历程及对财政的贡献太强大了 赵伟：美国贸易协议中的“虚虚实实”最新进展 小米汽车公布碰撞检测专利，有利于保障用户人身安全又一个里程碑 云内动力财报造假被严惩，律师提示维权还可报名加入后续来了 罗博特科：ficonTEC与美国苹果公司有合作又一个里程碑

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo