人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）

逗爷 2023-06-16 19:05:11 245

人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营？你怎么知道用户是否在寻找这些信息？在任何情况下省略它都是可以接受的吗？在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。"摇摆"功能让用户设计一个怪物并让它跳舞与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德（Josh Woodward）向The Verge解释的那样，AI Test Kitchen的全部意义在于：a）获得公众对这些AI系统的反馈；b）找出更多关于人们将如何打破它们的信息。伍德沃德不愿意讨论任何关于AI Test Kitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具

Google在发布其文本到图像的人工智能系统方面极为谨慎。尽管该公司的Imagen模型产生的输出质量与OpenAI的DALL-E 2或Stability AI的Stable Diffusion相当，但Google还没有向公众提供该系统。不过今天，这家搜索巨头宣布它将把Imagen--以非常有限的形式--添加到其AI Test Kitchen应用中，作为收集对该技术早期反馈的一种方式。

人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）(1)

AI Test Kitchen是在今年早些时候推出的，是Google对各种AI系统进行测试的一种方式。目前，该应用程序提供了一些不同的方式与Google的文本模型LAMDA（是的，就是那个工程师认为有知觉的模型，然后他被开除了）进行互动，该公司很快将增加类似的限制性Imagen请求，作为其所谓的应用程序"第二季"更新的一部分。简而言之，将有两种方式与Imagen互动，Google在今天的公告前演示了这一点。演示项目分别是："城市梦想家"和"摇摆不定"。

在"城市梦想家"中，用户可以要求模型生成围绕他们选择的主题设计的城市元素--例如，南瓜、牛仔布或黑颜色。Imagen创建了样本建筑和地块（城市广场、公寓楼、机场等等），所有的设计都以类似于《模拟城市》中看到的等距模型出现。

人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）(2)

城市梦想家"任务让用户要求以等距设计为主题的城市建筑

与其他文本到图像的模式相比，这些互动是非常受限制的，用户不能随便要求他们喜欢的东西。不过，这也是Google有意为之。正如Google产品管理高级总监乔希-伍德沃德（Josh Woodward）向The Verge解释的那样，AI Test Kitchen的全部意义在于：a）获得公众对这些AI系统的反馈；b）找出更多关于人们将如何打破它们的信息。

伍德沃德不愿意讨论任何关于AI Test Kitchen用户如何破坏其LaMDA功能的具体例子，但他指出，当模型被要求描述具体地点时，就出现了一个弱点。

伍德沃德说："在历史上的不同时期，一个地点对不同的人意味着不同的东西，所以我们看到了一些相当有创意的方式，人们试图把某个地方放到系统中，看看它产生了什么，"。当被问及哪些地方可能产生有争议的描述时，伍德沃德举了俄克拉荷马州塔尔萨的例子。"20世纪20年代，塔尔萨发生了一系列种族骚乱，"他说。"如果有人输入'塔尔萨'，模型甚至可能不参考这个......你可以想象世界各地的复杂情况。"

人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）(3)

"摇摆"功能让用户设计一个怪物并让它跳舞

想象一下，如果你要求一个人工智能模型描述德国中世纪的达豪镇。你是否希望模型的答案提及建在那里的纳粹集中营？你怎么知道用户是否在寻找这些信息？在任何情况下省略它都是可以接受的吗？在许多方面，设计具有文本界面的人工智能模型的问题与微调搜索的挑战相似：需要以一种让用户满意的方式解释用户的请求。

Google不会分享关于有多少人在实际使用AI Test Kitchen的数据（"我们并没有打算把它变成一个10亿用户的Google应用，"伍德沃德说），但他说它得到的反馈是非常宝贵的。"参与度远远高于我们的预期。并且这是一个非常活跃、有主见的用户群体。"他指出，该应用程序在接触"某些类型的人--研究人员、政策制定者"方面非常有用，他们可以用它来更好地了解最先进的人工智能模型的局限性和能力。

不过，最大的问题是，Google是否会想把这些模型推向更广泛的公众，如果是这样，会采取什么形式？目前，该公司的竞争对手OpenAI和Stability AI正急于将文本-图像模型商业化。

Google是否会觉得自己的系统足够安全，可以走出人工智能测试阶段，从而直接提供给用户？

网站首页

返回栏目

人工智能在图像生成方面的应用（Google的文本到图像的人工智能模型Imagen有限公开亮相）

猜您喜欢：

相关文章