OpenAI发布PointE类似于DALLE但用于3D建模

2022-12-21 09:41:22冷酷的灯泡

OpenAI是 Elon Musk 创立的人工智能初创公司，支持流行的 DALL-E 文本到图像生成器，周二宣布发布其最新的图片制作机器 POINT-E，它可以直接从文本提示生成 3D 点云。现有系统(如 Google 的 DreamFusion)通常需要数小时和 GPU 来生成图像，而 Point-E 只需要一个 GPU 和一两分钟。

3D 建模用于各种行业和应用程序。现代电影大片、视频游戏、VR 和 AR 的 CGI 效果、NASA 的月球陨石坑测绘任务、Google 的遗址保护项目以及Meta 的 Metaverse 愿景都取决于 3D 建模功能。然而，创建逼真的 3D 图像仍然是一个耗费资源和时间的过程，尽管 NVIDIA 致力于自动化对象生成和 Epic Game 的RealityCapture 移动应用程序，它允许任何拥有 iOS 手机的人将现实世界的对象扫描为 3D 图像。

文本到图像系统，如 OpenAI 的 DALL-E 2 和 Craiyon、DeepAI、Prisma Lab 的 Lensa 或 HuggingFace 的 Stable Diffusion，近年来迅速流行、臭名昭著和声名狼藉。Text-to-3D 是该研究的一个分支。与类似系统不同，Point-E“利用大量(文本、图像)对语料库，使其能够遵循多样化和复杂的提示，而我们的图像到 3D 模型是在较小的(图像、3D)数据集上训练的对，”由 Alex Nichol 领导的 OpenAI 研究团队在Point·E 中写道：从复杂提示生成 3D 点云的系统, 上周发布。“为了根据文本提示生成 3D 对象，我们首先使用文本到图像模型对图像进行采样，然后根据采样图像对 3D 对象进行采样。这两个步骤都可以在几秒钟内完成，并且不需要昂贵的优化程序。”

如果您要输入文本提示，比如“一只猫在吃墨西哥卷饼”，Point-E 将首先生成该吃墨西哥卷饼的猫的合成视图 3D 渲染。然后，它将通过一系列扩散模型运行生成的图像，以创建初始图像的 3D、RGB 点云——首先生成粗略的 1,024 点云模型，然后生成更精细的 4,096 点云模型。“在实践中，我们假设图像包含来自文本的相关信息，并且没有明确地限制文本上的点云，”研究团队指出。

这些扩散模型分别在“数百万”个 3d 模型上进行训练，所有模型都转换为标准化格式。“虽然我们的方法在这种评估中的表现比最先进的技术差，”该团队承认，“它在一小部分时间内产生了样本。” 如果您想亲自尝试一下，OpenAI 已在Github上发布了该项目的开源代码。

标签：图像文本模型

声明：本站所有作品图文均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系我们

上一篇：AMD于12月13日发布了公司的首款RDNA3GPU即RX7900XTX和RX7900XT下一篇：育碧解释Stadia用户如何获得免费的PC游戏副本

OpenAI发布PointE类似于DALLE但用于3D建模

推荐阅读

卫生间蹲便器安装方法，卫生间蹲便器安装教程

为什么奥运会冠军升国旗，为什么奥运冠军升国旗

中国平安保险好吗，中国平安保险怎么样

nba每年几月份开始打，nba每年几月份开打

汽车的gps是什么，汽车gps是什么意思

女子100米奥运纪录是多少秒钟，女子100米奥运纪录是多少秒

西安专业验房师去哪里找，西安验房师哪里找

华为路由器192.168.3.1，192.168.3.1华为路由器登录入口

北京房产中介费一般收多少钱，北京房产中介费一般收多少

投资一个汽车电影院多少钱，开一个汽车电影院需要多少钱

阅读排行

网站分类

标签列表