谷歌数百人团队正在为将于今年秋季发布的大型AI模型Gemini而努力,这是谷歌迄今构建的风险最高的产品之一。据悉,Gemini将 GPT-4等大型语言模型的文本能力与文生图能力相结合。谷歌员工还讨论了使用Gemini提供分析图表或创建带有文本描述的图形、使用文本或语音命令控制软件等功能。
谷歌正在押注Gemini来支持各种服务,从Bard聊天机器人到Google Docs、Slides等办公“全家桶”。谷歌还希望向通过其谷歌云服务器租赁部门访问Gemini的应用程序开发者收费。目前谷歌云通过一款名为Vertex AI的产品销售更原始的谷歌打造的AI模型。谷歌计划在今年晚些时候向应用程序开发人员正式推出Gemini,并可能在此之前开始在一些产品中使用它。
根据The Information此前报道,谷歌在YouTube视频转录的大型语料库上对Gemini进行了训练,它也可以将视频和音频集成到Gemini模型本身中,赋予多模态功能。例如,在YouTube视频上训练的模型可帮助机械师根据视频诊断汽车维修问题。他们还可能根据某人想要创建的网站或应用程序的草图生成软件代码,此前OpenAI已经预展示过这项功能。使用YouTube内容还能帮助谷歌开发更先进的文本到视频软件,根据用户想看的内容描述自动生成精细的视频。
据知情人士透露,谷歌联合创始人谢尔盖·布林致力于Gemini项目,他一直在对模型进行评估,并在训练模型方面提供帮助。在团队发现Gemini接受了潜在攻击性内容的训练后,布林还参与了重新训练模型的技术决策。(智东西)
