大模型进阶之多模态篇|百融云创：人机交互迎来全面重估

牛哄哄导航 06-04 92 0条评论

摘要： 写在开篇5月的大模型市场热闹非凡，几大科技巨头再度上演“神仙打架”名场面。先是OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型），意在迈向更为自然的人机...

写在开篇

5月的大模型市场热闹非凡，几大科技巨头再度上演“神仙打架”名场面。

先是OpenAI公布了最新的GPT-4o，o代表Omnimodel（全能模型），意在迈向更为自然的人机交互阶段，全面打通文本、音频、图像生成。

仅仅一日之后，谷歌向OpenAI发起技术对齐战，发布“全家桶”产品，无论是万能助手项目还是语音产品均可谓强对标GPT-4o。

微软方面则是应用布局上再下一城，办公成为其AI产品升级的核心场景，同时也让此前声量不大的Copilot模式大放光芒。

国内市场亦不遑多让。阿里云正式发布通义千问2.5，部分模型性能据称全面赶超 GPT-4 Turbo。随后，字节跳动的自研大模型家族亮相。至此，国内几大科技巨头的大模型产品均已集齐归位。

结合海内外大模型产业提速换挡的进展来看，模型正在从生产端向应用端进行拓展，这一赛道上几大关键卡位已然涌现出来：多模态、AI智能助手、AI数字人、AI+智能终端......

是的，AGI文明的中场战事正展露芳华。

【大模型进阶之多模态篇】

如果说，Sora、Gemini等爆款的发布揭开了多模态的产业序幕，现如今，属于多模态的正餐已经逐渐上桌。

并且，较之此前Sora等效果惊艳却难以规模化商用的疑虑，当前多模态产品除了带来崭新的交互能力，还在一定程度上实现了端到端的突破性体验，带来无限商用憧憬。

人机交互更为流畅自然

GPT-4o最令人惊艳的一点是其超自然的语音交互性能。在现场发布会上有趣的一点是，当对话被打断时，ChatGPT甚至表现出了一丝尴尬，这可谓是一种非常接近人类的反馈了。

也因此，在GPT-4o问世之后，在大模型生态中一度略显低调的“语音交互”热度明显上升。“语音交互或许是通向未来交互方式的重要线索。”OpenAI创始人奥特曼如此判断。

事实上，语音交互的魅力早已在产业界悄然酝酿，用AI来替代人工答疑解惑正深度渗透在千行百业的营销、运维、客户管理等流程中。根据德勤报告，预计到2030年，国内智能语音商用市场规模将达到1452亿元，其中企业级应用占比过半。

在语音交互领域，走在国内第一梯队的AI科技公司百融云创（百融云-W，6608.HK）自2018年开始突破性借助Transformer注意力机制拟合人机交互方式，将AI智能语音机器人（Voice-GPT）在金融、电商、租赁、物流等多个行业有效落地。

据了解，经过四年多在语音识别、海量语音数据计算等领域的技术沉淀，百融云创的Voice-GPT产品可以满足混合语种、复杂环境、多轮交互等更为深层的任务需求。

展开全文

除了修炼通用类的技术内功之外，为了让Voice-GPT更加拟人化，百融云创的技术团队基于行业Know-how持续加强特色研发。例如为了在交互中实时洞察用户的真实需求，百融云创自主研发了一种语音质检分析方法及系统，可以及时“量化”用户情绪波动，并在通话结束后的几百毫秒内形成分析报告。

“Voice-GPT中的智能语音、智能回访等AI技术正以每周升级两个版本的速度加速迭代。借助Voice-GPT可以将商业机构的用户管理效率有效提升16倍。”近日，百融云创CEO张韶峰在瑞银亚洲投资论坛中如此表示。

并且，伴随着AIGC时代的到来，百融云创将自研大模型（BR-LLM）的相关性能集成到语音交互之中，可以显著提升语音识别的精确度、响应速度和对场景的适应能力。在大模型基座之上运行的Voice GPT能支持每日3000万通以上智能语音沟通，延时低到人类无法察觉，在音色、情感、语速、对话层面能够实现“真人级”互动体验，对于客户语音识别的准确率能达到99%以上。

“AI+终端”料将迎来变革

目前，大模型在行业中的应用仍然以云端调用KPI为主，随着以AI语音为代表的多模态技术带来的交互体验升级，业内普遍预计，后续部分大模型算力有望下沉到端侧，AI终端将迎来全新变革。

并且，此前制约软硬件一体化部署的高成本痛点正被攻克。百融云创相关人士介绍，借助MoE架构（混合专家模型），得以在推理时实现性能和参数规模之间的最佳平衡，由此可显著降低B端用户的部署成本。

据了解，在加强模型推理性能的同时，百融云创以大模型为基座，搭建了模型应用一站式开发平台——Cybertron，对外输出AI Agent、Copilot等服务。借助Cybertron平台，可以帮助商业机构在本地构建低成本、高质量的语料生产体系，并以AI数字人等终端产品形态落地。

以代理运营模式为例，企业只需要将自身的品牌定位、产品分类、促销活动等信息详细输入给AI数字人，即可由后者代理品牌营销工作。具体到营销场景中，AI数字人在与用户对话过程中，通过对行为偏好、浏览时长等数据进行分析，可以精准洞察其隐含需求，并据此自动发布个性化营销方案。

一方面是AI语音底层技术城墙不断加厚，用户体验感知度增强；另一方面，端侧的轻量化、规模化部署成为可能。可以预见，内嵌大模型的全新端侧生态格局正在打开。

iiMedia Research（艾媒咨询）报告测算，2022年中国虚拟人核心市场规模为120.8亿元，同比增长94.2%，该机构预期及至2025年，这一市场规模将增至480.6亿元。

免责声明：本文仅供参考，不构成投资建议。

文章版权及转载声明：

作者:牛哄哄导航本文地址：https://nhh123.com/wangzhi/8786.html发布于 06-04
文章转载或复制请以超链接形式并注明出处牛哄哄网址导航

打赏

标签：进阶模态人机交互迎来

大模型进阶之多模态篇|百融云创：人机交互迎来全面重估

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关文章

发表评论取消回复

还没有评论，来说两句吧...