快捷搜索:  汽车  科技

对话配音ai(听AI配音演员尝试和你调情)

对话配音ai(听AI配音演员尝试和你调情)然而,与此类技术通常的情况一样,Sonantic成就的真正基准是其机器学习模型中新鲜出炉的音频,而不是在精美的,公关就绪的演示中使用的音频。弗林说,为其调情视频合成的语音需要"很少的手动调整",但该公司确实循环了几种不同的渲染,以找到最好的输出。"我认为这是主要的区别 - 我们指导,控制,编辑和塑造表演的能力,"弗林说。"我们的客户大多是三A级游戏工作室,娱乐工作室,我们正在扩展到其他行业。今年早些时候,我们最近与梅赛德斯(Mercedes)建立了合作关系[定制其车载数字助理]。在下面的视频中,你可以听到该公司试图开发一个轻浮的人工智能——尽管你是否认为它捕捉到了人类语言的细微差别是一个主观问题。在第一次听的时候,我以为这个声音与真人的声音几乎没有区别,但The Verge的同事说,他们立即把它当作一个机器人,指向某些单词之间留下的不可思议的空间,以

对话配音ai(听AI配音演员尝试和你调情)(1)

近年来,人工智能生成的声音的质量迅速提高,但人类语音的某些方面仍然逃脱了合成模仿。当然,人工智能演员可以为演示和广告提供流畅的企业配音,但更复杂的表演——例如令人信服的哈姆雷特演绎——仍然遥不可及。

人工智能语音初创公司Sonantic表示,它在开发音频深度造假方面取得了一个小突破,创造了一种合成的声音,可以表达诸如挑逗和调情之类的微妙之处。该公司表示,其进步的关键是将语音声音纳入其音频中;训练它的AI模型来重现那些小小的呼吸——微小的嘲笑和半隐藏的笑声——这些都给真实的演讲打上了生物真实性的烙印。

"更大的情绪更容易捕捉"

"我们选择爱情作为一般主题,"Sonantic联合创始人兼首席技术官John Flynn告诉The Verge。"但我们的研究目标是看看我们是否可以模拟微妙的情绪。更大的情绪更容易捕捉。

在下面的视频中,你可以听到该公司试图开发一个轻浮的人工智能——尽管你是否认为它捕捉到了人类语言的细微差别是一个主观问题。在第一次听的时候,我以为这个声音与真人的声音几乎没有区别,但The Verge的同事说,他们立即把它当作一个机器人,指向某些单词之间留下的不可思议的空间,以及发音中轻微的合成褶皱。

Sonantic首席执行官Zeena Qureshi将该公司的软件描述为"Photoshop for Voice"。它的界面允许用户输入他们想要合成的语音,指定交付的情绪,然后从AI声音中进行选择,其中大部分是从真实的人类演员那里复制的。这绝不是一个独特的产品(像Descript这样的竞争对手销售类似的软件包),但Sonantic表示其定制水平比竞争对手更深入。

交付的情感选择包括愤怒,恐惧,悲伤,幸福和喜悦,以及本周的更新,调情,腼腆,挑逗和吹嘘。"导演模式"允许更多的调整:可以调整声音的音调,向上或向下调音的传递强度,以及插入那些小的非语音发声,如笑声和呼吸。

对话配音ai(听AI配音演员尝试和你调情)(2)

"我认为这是主要的区别 - 我们指导,控制,编辑和塑造表演的能力,"弗林说。"我们的客户大多是三A级游戏工作室,娱乐工作室,我们正在扩展到其他行业。今年早些时候,我们最近与梅赛德斯(Mercedes)建立了合作关系[定制其车载数字助理]。

然而,与此类技术通常的情况一样,Sonantic成就的真正基准是其机器学习模型中新鲜出炉的音频,而不是在精美的,公关就绪的演示中使用的音频。弗林说,为其调情视频合成的语音需要"很少的手动调整",但该公司确实循环了几种不同的渲染,以找到最好的输出。

为了尝试获得Sonantic技术的原始和代表性样本,我要求他们使用一些不同的情绪来渲染相同的线条(针对您,亲爱的Verge读者)。您可以自己听他们比较。

首先,这是"调情":

cdn.vox-cdn/uploads/chorus_asset/file/23249230/hello_my_dear_flirty_medium.mp3

然后"戏弄":

cdn.vox-cdn/uploads/chorus_asset/file/23249229/hello_dear_teasing_medium.mp3

"高兴":

cdn.vox-cdn/uploads/chorus_asset/file/23249228/hello_dear_pleased_medium.mp3

"开朗":

cdn.vox-cdn/uploads/chorus_asset/file/23249227/hello_dear_cheerful_medium.mp3

最后,"休闲":

cdn.vox-cdn/uploads/chorus_asset/file/23249226/hello_dear_casual_medium.mp3
至少在我看来,这些剪辑比演示要粗糙得多。这表明了一些事情。首先,需要手动抛光才能充分利用AI语音。许多人工智能项目都是如此,比如自动驾驶汽车,它们已经成功地实现了非常基本的驾驶自动化,但仍然在与定义人类能力的最后一个也是最重要的5%的努力中挣扎。这意味着全自动,完全令人信服的AI语音合成还有很长的路要走。

其次,我认为它表明,启动的心理学概念可以做很多事情来欺骗你的感官。视频演示 - 一个真正的人类演员对着镜头感到不安地亲密 - 可能会提示你的大脑听到伴随的声音是真实的。因此,最好的合成媒体可能是结合了真实和虚假输出的媒体。

除了技术是否令人信服的问题之外,Sonantic的演示还提出了其他问题,例如,部署调情AI的道德规范是什么?以这种方式操纵听众公平吗?为什么索南蒂克选择让它的调情人物成为女性?(这种选择可以说延续了男性主导的科技行业中一种微妙的性别歧视形式,在这个行业里,公司倾向于将人工智能助手编码为顺从的——甚至是轻浮的——秘书。

关于第一个问题,该公司表示,他们选择女性声音只是受到斯派克·琼斯(Spike Jonze)2013年电影《她》(Her)的启发,主角爱上了一位名叫萨曼莎(Samantha)的女性AI助手。关于第二点,Sonantic表示,它认识到伴随新技术发展而来的道德困境,并且在如何以及在何处使用其AI声音方面非常谨慎。

"这是我们坚持娱乐的最大原因之一,"首席执行官库雷希说。"CGI不用于任何事情 - 它用于最好的娱乐产品和模拟。我们以同样的方式看待这种[技术]。她补充说,该公司的所有演示都披露了该声音确实是合成的(尽管如果客户想要使用该公司的软件为更具欺骗性的目的生成声音,这并不意味着什么)。

将AI语音合成与其他娱乐产品进行比较是有道理的。毕竟,被电影和电视操纵可以说是我们首先制作这些东西的原因。但是,人工智能将允许大规模部署这种操纵,而较少关注其在个别情况下的影响,这一事实也有一些话要说。例如,在世界各地,人们已经与人工智能聊天机器人建立了关系,甚至坠入爱河。将AI生成的声音添加到这些机器人中肯定会使它们更加强大,从而引发有关如何设计这些系统和其他系统的问题。如果人工智能的声音可以令人信服地调情,他们可能会说服你做什么?

原文标题:Listen to an AI voice actor try and flirt with you

原文链接:theverge/2022/2/17/22936978/ai-voice-speech-synthesis-audio-deepfake-sonantic-flirtation

原文作者:James Vincent

编译:LCR

猜您喜欢: