分类: IT业界
2025-03-27 18:00:01
3 月 27 日凌晨,阿里通义千问团队发布 Qwen 模型家族中新一代端到端全模态大模型 Qwen2.5-Omni,标志着 AI “类人化”再进一步。
Qwen2.5-Omni 不仅能处理文本、图像、音频、视频等多种输入,还能以流式交互实时生成文本与自然语音响应,几乎复刻了人类“接收信息-思考-表达”的全流程。也就是说,你可以和 Qwen2.5-Omni 实时进行音视频通话,随问随答。
目前Qwen2.5-Omni已经在Hugging Face、ModelScope、DashScope和 GitHub上开放,还公布了技术文档,开发者可以免费下载部署。
Qwen2.5-Omni 的突破性在于 Thinker-Talker 双核架构的设计——前者如同人类大脑,负责整合多模态输入中的复杂信息,比如解析一段视频中的画面、对话和背景音乐,提炼出语义核心;后者则模拟发声器官,将处理结果转化为连贯的文本或拟人化语音,响应延迟低至毫秒级。
这种架构让 AI 成为一个可以实时响应、“看听说写”统统不在话下的得力助手,让工作效率提升数倍。甚至在视频会议中,实时翻译多语言也不再是幻想。
除了创新架构,Qwen2.5-Omni 还有以下特点:
性能方面,测试数据显示,Qwen2.5-Omni 在包括图像,音频,音视频等多模态综合性能已经超越谷歌 Gemini-1.5-pro 等闭源模型,并且在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,音频生成的自然度接近真人水平。
阿里巴巴此次的发布不仅是技术上的一大进步,更是对未来多模态 AI 应用的全新探索。
同时,这种开源普惠的模式,或许将引发一场 AI 民主化运动——技术不再是巨头的专属武器,而是成为普惠创新的基础设施。无论是开发者、企业,还是普通消费者,都可以抓住这一机遇,提升自身的竞争力和创造力。
当然,AI 的终极形态不是替代人类,而是成为延伸我们感官与思维的第六器官,在安全可控的前提下释放生产力,加速AI普惠。
大家是不是迫不及待想体验了?算家云镜像社区也提供了 DeepSeek R1、QwQ-32B 等高性能大模型,支持一键启动,无需本地部署,即可体验强大性能,加速您的项目,欢迎大家进入镜像社区体验~
欢迎体验完在评论区留言分享你的感受哦~