谷歌Gemini多模态技术望推动人形机器人加速商业化 产业链公司受关注
AI摘要
据报道,日前谷歌正式推出大模型Gemini,其最大亮点之一就是设计时就原生支持多模态,可以泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频,远远优于现有(近似)多模态模型,并
摘要由作者通过智能技术生成
据报道,日前谷歌正式推出大模型Gemini,其最大亮点之一就是设计时就原生支持多模态,可以泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频,远远优于现有(近似)多模态模型,并且它的能力在几乎每个领域都是最强的。谷歌研发负责人Hassabis透露,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理交互。他表示,新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。
portant; padding: 0px !important;">多模态技术可以提高人机交互的效率和质量,使得用户可以更自然、更直观地与计算机进行交互。作为多模态应用重要场景的机器人领域方面,多模态技术可以帮助机器人实现更加精确、高效、协调的动作控制,从而提高机器人的工作效率和质量。此前,谷歌大模型PaLM-E驱动的机器人可以执行长跨度任务、执行规划任务、在给定图像的情况下讲述笑话等,Gemini望应用于完善机器人任务层的实践当中,推动人形机器人等细分产业加速商用,相关领域公司望迎来机遇。





