谷歌的Gemini多模式对加拿大来说仍然遥不可及

2023-12-07 14:39:09深情的哈密瓜

尽管最近有传言，谷歌仍继续前进，宣布推出新的Gemini多模式模型，该模型将为这家搜索巨头提供的各种新的和现有的人工智能(AI)产品提供支持。

Gemini在2023年I/O大会上首次亮相，被誉为Google最大、功能最强大的AI模型。在新闻发布会上，谷歌声称Gemini是第一个在大规模多任务语言理解(MMLU)基准测试中得分超过90%并超越人类的模型。MMLU结合了数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力。

但Gemini的特殊之处在于它天生就是多模式的——换句话说，它可以理解文本、图像、音频、代码等，因为它从一开始就接受了多个数据集的训练。谷歌表示，当前大多数多模态大语言模型(LLM)都是通过将各种单独的模型拼接在一起来工作的，而Gemini是一种多模态模型。

此外，谷歌将Gemini调整为可在三种尺寸上工作：最强大的“Ultra”版本、“Pro”版本和能够在包括移动设备在内的设备上运行的“Nano”尺寸(以及即将推出的Pixel8Pro，但更多信息请参见一分钟后)。

在发布会上，谷歌称赞Gemini的“复杂推理”和“高级编码”能力，称其为“领先”的编码模型。Gemini的专门版本将为Google的AlphaCode2代码生成系统提供支持。该公司声称，它擅长解决竞争性编程问题，这些问题“超越编码，涉及复杂的数学和理论计算机科学”。

视频示例展示了Gemini的能力

双子座不同尺寸的插图。

美国东部时间23年6月12日上午10:32更新：Google发布了我在简报期间看到的一些视频，因此我将其添加到下面。

谷歌还展示了几个详细介绍Gemini功能的视频。我带着对Gemini能力的合理怀疑观看了这些视频，但我仍然对它的能力感到相当惊讶。Gemini在现实世界的测试中是否表现出色还有待观察。

在一个视频中，用户输入一张填写了答案的数学作业表的图片。Gemini能够检查答案，突出显示哪些是正确的，哪些是错误的。

除此之外，用户和Gemini还可以讨论错误的答案，Gemini会强调答案错误的原因，详细说明计算答案的正确方法，甚至提供替代练习题供用户解决。

在另一个视频示例中，GoogleDeepMind科学家利用Gemini在午休时间阅读了200,000篇科学论文。Gemini解析了论文中的相关数据，并能够提取关键信息并帮助科学家用它更新数据集。

最后，另一个视频通过让用户拿出各种物品供其分析，展示了Gemini的多模式能力。该剪辑以用户画一只鸭子开始，一旦细节被填充，Gemini就能够识别出它。视频连续循环显示多个对象，用户从鸭子转到世界地图，提示Gemini想出一个用它来玩的游戏。Gemini建议推出一款“猜国家”游戏，其中会列出一个国家的详细信息，例如顶级运动或美食，然后用户会在地图上指出它。视频中还展示了双子座与用户玩石头剪刀布、推理能力等等。

该视频经过了相当清晰的打磨和戏剧化处理，使一切看起来比实际使用时更加流畅。尽管如此，如果双子座能够完成视频中显示的任务，即使不是那么顺利，我也会印象深刻。

即将登陆巴德、移动等领域

谷歌详细介绍了Gemini的推出，其中包括在未来几天和几个月内将其融入到各种现有产品中。首先，从12月6日开始，双子座将来到巴德。新的“BardwithGeminiPro”体验将在美国和其他几个地区提供，但不包括加拿大，因为加拿大仍然无法访问现有的Bard。当被问及时，谷歌仅表示“在扩张之前正在与当地政策和监管机构合作”。

这家搜索巨头表示，Bard与GeminiPro是Bard自推出以来最大的质量改进。此次推出将从基于文本的提示开始，然后在未来几个月内扩展到多模式。谷歌还宣称，新的Gemini驱动的Bard在八项测试中的六项中优于OpenAI的GPT-3.5，但在简报中，该公司对Gemini如何与OpenAI的GPT-4进行比较却守口如瓶。

然而，在简报后该公司与MobileSyrup分享的媒体工具包中，谷歌包含了一张比较GeminiUltra和GPT-4的图表。该图表显示GeminiUltra在多个基准测试中的表现优于GPT-4，包括MMLU、Big-BenchHard、DROP、GSM8K、MATH、HumanEval、Natural2Code、MMU、VQAv、TextVQA等。据谷歌称，GPT-4仅在“HellaSwag”常识推理测试中击败了GeminiUltra。

Gemini也将从12月6日开始出现在Pixel8Pro上，不过谷歌并没有透露太多关于Gemini将出现在哪里的信息。我们确实知道GeminiNano变体将通过Pixel8Pro上的AICore工作，并将影响GoogleRecorder应用程序和Gboard的体验，但到目前为止仅此而已。谷歌还表示，它也会将其扩展到其他Android设备。目前尚不清楚普通Pixel8何时会获得GeminiNano——它也有AICore应用程序，但谷歌似乎最近几周才推送了8Pro版本应用程序的更新。

美国东部时间23年6月12日上午10:32更新：在另一篇博文中，Google提供了有关GeminiNano在Pixel8Pro上的功能的更多详细信息。具体来说，它将为记录器应用程序中的一个新的“总结”功能提供支持，顾名思义，该功能可以在没有网络连接的情况下总结录制的对话。

Nano将支持的另一个功能是“Gboard中的智能回复”。它以开发者预览版的形式推出，可在WhatsApp中使用。智能回复可以建议具有对话意识的文本回复。

美国东部时间23年6月12日下午2:15更新：谷歌确认这两项由Gemini驱动的Pixel8Pro功能将在加拿大推出。

从12月6日开始，GeminiNano也将可供想要构建Gemini支持的应用程序的Android开发者使用。13日，GeminiPro将通过Google的VertexAI和AIStudio向开发者和企业客户开放。

谷歌计划将Gemini整合到其“搜索生成体验”(SGE)中，该体验将生成人工智能工具集成到谷歌搜索体验中。这将在明年广泛推出，并(希望)很快来到加拿大。该公司还计划与Gemini一起更新其他产品，包括Chrome、Ads和DuetAI。

最后，GeminiUltra直到2024年才会推出，因为Google正在努力完成信任和安全测试。当Ultra到来时，谷歌将集成到一个新的“BardAdvanced”聊天机器人中。

其他一切

谷歌TPU机架。

在简报和问答环节中，我们从Google了解到了有关Gemini的许多其他细节。下面我将转述一些更有趣的花絮。

尽管Gemini取得了重大进步，但谷歌承认Gemini仍然会像其他法学硕士一样遭受“幻觉”的困扰。该公司表示，它正在努力提高整体准确性，但看起来用户在使用Gemini支持的工具时需要对错误和不准确性保持警惕。

此外，虽然“BardAdvanced”等术语让人联想到货币化的幽灵，但谷歌强调，目前没有计划通过Gemini货币化。

谷歌还表示，Gemini将无法为用户生成图像，但该公司正在努力解决这一问题。此外，谷歌正在努力“了解Ultra的所有新颖功能”。

这家搜索巨头表示，它正在与巴德一起对Assistant进行早期测试。

谷歌表示，Gemini的训练和服务效率明显高于以前的模型，这将有助于公司实现环境目标。该公司对Gemini进行了TPUv4和v5e芯片的培训，并发布了一款新的TPUv5p芯片——“p”代表性能。谷歌表示，与TPUv4相比，v5p每芯片的FLOPS提高了2倍，可扩展性提高了4倍，训练现有LLM模型的速度提高了2.8倍。Google可以使用其TPU或GPU为Gemin提供服务。

在回答有关Gemini是否在某些语言上遇到困难的问题时，谷歌声称Gemini接受过100多种语言的训练，并且在这些语言上“表现相当出色”。最近有关Gemini延迟的报道称，谷歌将推迟发布，因为该模型难以处理非英语查询。

最后，谷歌表示将发布一份技术白皮书，其中包含有关Gemini的更多详细信息。

声明：本站所有作品图文均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系我们

上一篇：索尼恢复了一些用户被暂停的PlayStation帐户但尚不清楚发生了什么下一篇：智能搜索是Google文件的一项功能可帮助您查找文件

谷歌的Gemini多模式对加拿大来说仍然遥不可及

推荐阅读

智能搜索是Google文件的一项功能可帮助您查找文件

索尼恢复了一些用户被暂停的PlayStation帐户但尚不清楚发生了什么

据报道苹果OLEDiPadPro和新款iPadAir将于2024年初上市

2023年12月谷歌PixelFeatureDrop终于为Pixel8Pro带来了视频增强功能

苹果的iPhone17或iPhone18可能采用屏下摄像头技术

谷歌Pixel2023年12月功能下降带来修复模式

谷歌可能正在努力将最佳镜头和最佳镜头结合起来

Sonos公布即将到来的假期折扣

iQOO125G智能手机马来西亚发布仅提供16GB+512GB售价RM3399

阅读排行

网站分类

标签列表