大模型进阶之多模态篇|百融云创:人机交互迎来全面重估

摘要: 写在开篇5月的大模型市场热闹非凡,几大科技巨头再度上演“神仙打架”名场面。先是OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型),意在迈向更为自然的人机...

写在开篇

5月的大模型市场热闹非凡,几大科技巨头再度上演“神仙打架”名场面。

先是OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型),意在迈向更为自然的人机交互阶段,全面打通文本、音频、图像生成。

仅仅一日之后,谷歌向OpenAI发起技术对齐战,发布“全家桶”产品,无论是万能助手项目还是语音产品均可谓强对标GPT-4o。

微软方面则是应用布局上再下一城,办公成为其AI产品升级的核心场景,同时也让此前声量不大的Copilot模式大放光芒。

国内市场亦不遑多让。阿里云正式发布通义千问2.5,部分模型性能据称全面赶超 GPT-4 Turbo。随后,字节跳动的自研大模型家族亮相。至此,国内几大科技巨头的大模型产品均已集齐归位。

结合海内外大模型产业提速换挡的进展来看,模型正在从生产端向应用端进行拓展,这一赛道上几大关键卡位已然涌现出来:多模态、AI智能助手、AI数字人、AI+智能终端......

是的,AGI文明的中场战事正展露芳华。

【大模型进阶之多模态篇】

如果说,Sora、Gemini等爆款的发布揭开了多模态的产业序幕,现如今,属于多模态的正餐已经逐渐上桌。

并且,较之此前Sora等效果惊艳却难以规模化商用的疑虑,当前多模态产品除了带来崭新的交互能力,还在一定程度上实现了端到端的突破性体验,带来无限商用憧憬。

人机交互更为流畅自然

GPT-4o最令人惊艳的一点是其超自然的语音交互性能。在现场发布会上有趣的一点是,当对话被打断时,ChatGPT甚至表现出了一丝尴尬,这可谓是一种非常接近人类的反馈了。

也因此,在GPT-4o问世之后,在大模型生态中一度略显低调的“语音交互”热度明显上升。“语音交互或许是通向未来交互方式的重要线索。”OpenAI创始人奥特曼如此判断。

事实上,语音交互的魅力早已在产业界悄然酝酿,用AI来替代人工答疑解惑正深度渗透在千行百业的营销、运维、客户管理等流程中。根据德勤报告,预计到2030年,国内智能语音商用市场规模将达到1452亿元,其中企业级应用占比过半。

在语音交互领域,走在国内第一梯队的AI科技公司百融云创(百融云-W,6608.HK)自2018年开始突破性借助Transformer注意力机制拟合人机交互方式,将AI智能语音机器人(Voice-GPT)在金融、电商、租赁、物流等多个行业有效落地。

据了解,经过四年多在语音识别、海量语音数据计算等领域的技术沉淀,百融云创的Voice-GPT产品可以满足混合语种、复杂环境、多轮交互等更为深层的任务需求。

展开全文

除了修炼通用类的技术内功之外,为了让Voice-GPT更加拟人化,百融云创的技术团队基于行业Know-how持续加强特色研发。例如为了在交互中实时洞察用户的真实需求,百融云创自主研发了一种语音质检分析方法及系统,可以及时“量化”用户情绪波动,并在通话结束后的几百毫秒内形成分析报告。

“Voice-GPT中的智能语音、智能回访等AI技术正以每周升级两个版本的速度加速迭代。借助Voice-GPT可以将商业机构的用户管理效率有效提升16倍。”近日,百融云创CEO张韶峰在瑞银亚洲投资论坛中如此表示。

并且,伴随着AIGC时代的到来,百融云创将自研大模型(BR-LLM)的相关性能集成到语音交互之中,可以显著提升语音识别的精确度、响应速度和对场景的适应能力。在大模型基座之上运行的Voice GPT能支持每日3000万通以上智能语音沟通,延时低到人类无法察觉,在音色、情感、语速、对话层面能够实现“真人级”互动体验,对于客户语音识别的准确率能达到99%以上。

“AI+终端”料将迎来变革

目前,大模型在行业中的应用仍然以云端调用KPI为主,随着以AI语音为代表的多模态技术带来的交互体验升级,业内普遍预计,后续部分大模型算力有望下沉到端侧,AI终端将迎来全新变革。

并且,此前制约软硬件一体化部署的高成本痛点正被攻克。百融云创相关人士介绍,借助MoE架构(混合专家模型),得以在推理时实现性能和参数规模之间的最佳平衡,由此可显著降低B端用户的部署成本。

据了解,在加强模型推理性能的同时,百融云创以大模型为基座,搭建了模型应用一站式开发平台——Cybertron,对外输出AI Agent、Copilot等服务。借助Cybertron平台,可以帮助商业机构在本地构建低成本、高质量的语料生产体系,并以AI数字人等终端产品形态落地。

以代理运营模式为例,企业只需要将自身的品牌定位、产品分类、促销活动等信息详细输入给AI数字人,即可由后者代理品牌营销工作。具体到营销场景中,AI数字人在与用户对话过程中,通过对行为偏好、浏览时长等数据进行分析,可以精准洞察其隐含需求,并据此自动发布个性化营销方案。

一方面是AI语音底层技术城墙不断加厚,用户体验感知度增强;另一方面,端侧的轻量化、规模化部署成为可能。可以预见,内嵌大模型的全新端侧生态格局正在打开。

iiMedia Research(艾媒咨询)报告测算,2022年中国虚拟人核心市场规模为120.8亿元,同比增长94.2%,该机构预期及至2025年,这一市场规模将增至480.6亿元。

免责声明:本文仅供参考,不构成投资建议。

广告

文章版权及转载声明:

作者:牛哄哄导航本文地址:https://nhh123.com/wangzhi/8786.html发布于 06-04
文章转载或复制请以超链接形式并注明出处牛哄哄网址导航

赞(0

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏