阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-03
古越龙山最年轻副总经理提前离任,公司业绩已连续4年未达预期科技水平又一个里程碑 交银国际:料美联储第四季首次减息 关税影响有滞后性 需求激增 寒武纪以技术积淀抢占发展先机官方已经证实 千亿元级招商资管最新人事变动!新任徐勇为副总经理 年报造假被罚400万!中船系公司突遭ST官方通报来了 北大精英掌舵头部量化私募翻车:平方和投资创始人吕杰勇虚开千万发票套现遭罚167万 瑞银:降恒生银行评级至“沽售” 下调目标价至102港元 料全年股息下跌 仕佳光子2025年上半年业绩飙升:技术驱动与全球布局双突破 AI应用端震荡回升 鼎捷数智涨超10% 仕佳光子2025年上半年业绩飙升:技术驱动与全球布局双突破 价值“红线”见分晓!储能安全强制国标8月1日将实施! 黄力晨:美联储降息预期降温 美元上涨打压金价是真的吗? 上海市通信管理局:开展“算力浦江”2025年算力基础设施高质量发展专项行动科技水平又一个里程碑 AI应用端震荡回升 鼎捷数智涨超10%实测是真的 PCE通胀上行助推美元指数升至九周高位,特朗普关税计划加剧市场谨慎情绪 年报造假被罚400万!中船系公司突遭ST学习了 比亚迪:1-7月新能源汽车销量同比增长27.35%后续会怎么发展 塑料行业CFO薪酬观察:ST泉为CFO徐珍英任职次年公司业绩暴跌戴帽 年薪97.99万元高于行业平均薪酬26万元学习了 8月机构最看好的10只个股,一文看懂选股逻辑! 苏盐井神最新股东户数环比下降6.62% 筹码趋向集中太强大了 新联电子最新股东户数环比下降6.70% 筹码趋向集中 宿迁联盛最新股东户数环比下降7.33% 筹码趋向集中后续反转 8月1日PA66产业链情报实测是真的 白酒董秘盘点:舍得酒业董秘张伟大幅降薪 去年公司股价跌46.2%为行业跌幅最大这么做真的好么? 比亚迪:1-7月新能源汽车销量同比增长27.35%学习了 现金流暴涨257.05%!激光大厂上半年增收不增利 宗馥莉,首战输了?宗庆后确有设立信托计划,受益人为三兄妹,宗馥莉不得挪用!科技水平又一个里程碑 停牌!金橙子拟购买这家公司55%股权后续会怎么发展 广告营销行业CFO薪酬观察:智度股份净利润下滑超三成 CFO刘韡年薪125.81万元翻了1.2倍 涨幅行业登顶最新报道 8月1日沪深两市强势个股与概念板块是真的吗? 宗馥莉,首战输了?宗庆后确有设立信托计划,受益人为三兄妹,宗馥莉不得挪用! 23家企业竞标!盈峰环境斩获8月首个亿级城区环卫大单!后续会怎么发展 智翔金泰:公司GR2001注射液新药上市申请已于2025年5月获受理,目前处于排队待审评状态官方已经证实 微软市值有望首破4万亿美元 苹果旗舰价格滑铁卢!学习了 单月5万+交付量,零跑七月“狂飙”后续会怎么发展 单月5万+交付量,零跑七月“狂飙” 多氟多:公司对固态电池保持高度关注,并具备部分材料产业化的能力,但还未正式量产固态电池 2024年度A股CFO盘点:飞行汽车概念炒出万丰奥威283%涨幅,财务总监陈善富年薪反降11万!归母净利润连降两年后续会怎么发展 智翔金泰:公司GR2001注射液新药上市申请已于2025年5月获受理,目前处于排队待审评状态后续来了 旭升集团累计回购824万股 金额1.04亿元官方已经证实 2连板倍加洁:7月23日-7月28日小倍一号、小倍二号分别减持102.5万股、57.5万股 Google 获准全面恢复在华服务?内部人士:截图不是来自 Google 顺发恒业证券事务代表刘海英辞职 国产算力新突破!中兴通讯全栈赋能,乌镇智算集群成功点亮专家已经证实 巨星农牧:公司目前尚未涉及向欧盟市场出口业务实时报道 旺能环境控股股东美欣达集团累计增持495万股 金额8666万元

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章