谷歌的Gemini多模式对加拿大来说仍然遥不可及

2023-12-07 14:39:09深情的哈密瓜

尽管最近有传言,谷歌仍继续前进,宣布推出新的Gemini多模式模型,该模型将为这家搜索巨头提供的各种新的和现有的人工智能(AI)产品提供支持。

谷歌的Gemini多模式对加拿大来说仍然遥不可及

Gemini在2023年I/O大会上首次亮相,被誉为Google最大、功能最强大的AI模型。在新闻发布会上,谷歌声称Gemini是第一个在大规模多任务语言理解(MMLU)基准测试中得分超过90%并超越人类的模型。MMLU结合了数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力。

但Gemini的特殊之处在于它天生就是多模式的——换句话说,它可以理解文本、图像、音频、代码等,因为它从一开始就接受了多个数据集的训练。谷歌表示,当前大多数多模态大语言模型(LLM)都是通过将各种单独的模型拼接在一起来工作的,而Gemini是一种多模态模型。

此外,谷歌将Gemini调整为可在三种尺寸上工作:最强大的“Ultra”版本、“Pro”版本和能够在包括移动设备在内的设备上运行的“Nano”尺寸(以及即将推出的Pixel8Pro,但更多信息请参见一分钟后)。

在发布会上,谷歌称赞Gemini的“复杂推理”和“高级编码”能力,称其为“领先”的编码模型。Gemini的专门版本将为Google的AlphaCode2代码生成系统提供支持。该公司声称,它擅长解决竞争性编程问题,这些问题“超越编码,涉及复杂的数学和理论计算机科学”。

视频示例展示了Gemini的能力

双子座不同尺寸的插图。

美国东部时间23年6月12日上午10:32更新:Google发布了我在简报期间看到的一些视频,因此我将其添加到下面。

谷歌还展示了几个详细介绍Gemini功能的视频。我带着对Gemini能力的合理怀疑观看了这些视频,但我仍然对它的能力感到相当惊讶。Gemini在现实世界的测试中是否表现出色还有待观察。

在一个视频中,用户输入一张填写了答案的数学作业表的图片。Gemini能够检查答案,突出显示哪些是正确的,哪些是错误的。

除此之外,用户和Gemini还可以讨论错误的答案,Gemini会强调答案错误的原因,详细说明计算答案的正确方法,甚至提供替代练习题供用户解决。

在另一个视频示例中,GoogleDeepMind科学家利用Gemini在午休时间阅读了200,000篇科学论文。Gemini解析了论文中的相关数据,并能够提取关键信息并帮助科学家用它更新数据集。

最后,另一个视频通过让用户拿出各种物品供其分析,展示了Gemini的多模式能力。该剪辑以用户画一只鸭子开始,一旦细节被填充,Gemini就能够识别出它。视频连续循环显示多个对象,用户从鸭子转到世界地图,提示Gemini想出一个用它来玩的游戏。Gemini建议推出一款“猜国家”游戏,其中会列出一个国家的详细信息,例如顶级运动或美食,然后用户会在地图上指出它。视频中还展示了双子座与用户玩石头剪刀布、推理能力等等。

该视频经过了相当清晰的打磨和戏剧化处理,使一切看起来比实际使用时更加流畅。尽管如此,如果双子座能够完成视频中显示的任务,即使不是那么顺利,我也会印象深刻。

即将登陆巴德、移动等领域

谷歌详细介绍了Gemini的推出,其中包括在未来几天和几个月内将其融入到各种现有产品中。首先,从12月6日开始,双子座将来到巴德。新的“BardwithGeminiPro”体验将在美国和其他几个地区提供,但不包括加拿大,因为加拿大仍然无法访问现有的Bard。当被问及时,谷歌仅表示“在扩张之前正在与当地政策和监管机构合作”。

这家搜索巨头表示,Bard与GeminiPro是Bard自推出以来最大的质量改进。此次推出将从基于文本的提示开始,然后在未来几个月内扩展到多模式。谷歌还宣称,新的Gemini驱动的Bard在八项测试中的六项中优于OpenAI的GPT-3.5,但在简报中,该公司对Gemini如何与OpenAI的GPT-4进行比较却守口如瓶。

然而,在简报后该公司与MobileSyrup分享的媒体工具包中,谷歌包含​​了一张比较GeminiUltra和GPT-4的图表。该图表显示GeminiUltra在多个基准测试中的表现优于GPT-4,包括MMLU、Big-BenchHard、DROP、GSM8K、MATH、HumanEval、Natural2Code、MMU、VQAv、TextVQA等。据谷歌称,GPT-4仅在“HellaSwag”常识推理测试中击败了GeminiUltra。

Gemini也将从12月6日开始出现在Pixel8Pro上,不过谷歌并没有透露太多关于Gemini将出现在哪里的信息。我们确实知道GeminiNano变体将通过Pixel8Pro上的AICore工作,并将影响GoogleRecorder应用程序和Gboard的体验,但到目前为止仅此而已。谷歌还表示,它也会将其扩展到其他Android设备。目前尚不清楚普通Pixel8何时会获得GeminiNano——它也有AICore应用程序,但谷歌似乎最近几周才推送了8Pro版本应用程序的更新。

美国东部时间23年6月12日上午10:32更新:在另一篇博文中,Google提供了有关GeminiNano在Pixel8Pro上的功能的更多详细信息。具体来说,它将为记录器应用程序中的一个新的“总结”功能提供支持,顾名思义,该功能可以在没有网络连接的情况下总结录制的对话。

Nano将支持的另一个功能是“Gboard中的智能回复”。它以开发者预览版的形式推出,可在WhatsApp中使用。智能回复可以建议具有对话意识的文本回复。

美国东部时间23年6月12日下午2:15更新:谷歌确认这两项由Gemini驱动的Pixel8Pro功能将在加拿大推出。

从12月6日开始,GeminiNano也将可供想要构建Gemini支持的应用程序的Android开发者使用。13日,GeminiPro将通过Google的VertexAI和AIStudio向开发者和企业客户开放。

谷歌计划将Gemini整合到其“搜索生成体验”(SGE)中,该体验将生成人工智能工具集成到谷歌搜索体验中。这将在明年广泛推出,并(希望)很快来到加拿大。该公司还计划与Gemini一起更新其他产品,包括Chrome、Ads和DuetAI。

最后,GeminiUltra直到2024年才会推出,因为Google正在努力完成信任和安全测试。当Ultra到来时,谷歌将集成到一个新的“BardAdvanced”聊天机器人中。

其他一切

谷歌TPU机架。

在简报和问答环节中,我们从Google了解到了有关Gemini的许多其他细节。下面我将转述一些更有趣的花絮。

尽管Gemini取得了重大进步,但谷歌承认Gemini仍然会像其他法学硕士一样遭受“幻觉”的困扰。该公司表示,它正在努力提高整体准确性,但看起来用户在使用Gemini支持的工具时需要对错误和不准确性保持警惕。

此外,虽然“BardAdvanced”等术语让人联想到货币化的幽灵,但谷歌强调,目前没有计划通过Gemini货币化。

谷歌还表示,Gemini将无法为用户生成图像,但该公司正在努力解决这一问题。此外,谷歌正在努力“了解Ultra的所有新颖功能”。

这家搜索巨头表示,它正在与巴德一起对Assistant进行早期测试。

谷歌表示,Gemini的训练和服务效率明显高于以前的模型,这将有助于公司实现环境目标。该公司对Gemini进行了TPUv4和v5e芯片的培训,并发布了一款新的TPUv5p芯片——“p”代表性能。谷歌表示,与TPUv4相比,v5p每芯片的FLOPS提高了2倍,可扩展性提高了4倍,训练现有LLM模型的速度提高了2.8倍。Google可以使用其TPU或GPU为Gemin提供服务。

在回答有关Gemini是否在某些语言上遇到困难的问题时,谷歌声称Gemini接受过100多种语言的训练,并且在这些语言上“表现相当出色”。最近有关Gemini延迟的报道称,谷歌将推迟发布,因为该模型难以处理非英语查询。

最后,谷歌表示将发布一份技术白皮书,其中包含有关Gemini的更多详细信息。

推荐阅读

阅读排行