洛天依五大黑暗神曲解析（洛天依同人语音合成VOCALTTS发电项目的一切）

小君 2022-12-11 04:39:17 712

洛天依五大黑暗神曲解析（洛天依同人语音合成VOCALTTS发电项目的一切）至于后来我们是如何做出来的，相信这个是很多人都想知道的。 VOCALTTS非商业研究&同人项目转眼经过了三年，至今可能算四年了，期间我们是断断续续的开发这个（实际开发用时也就不到一两个月，但是需要积累）。从一开始的采集、框架编写、调试，到最初效果出炉后，我们便已经力不从心了，那时就已经点到为止（差不多放弃）。而对于后来这个新的结果，也算是个意外了吧，我们重新拾起了这个咕了一年多的项目，让它现在重新展现到大家眼前。这个项目，是由粉丝，为粉丝而做的，不同工作和学业的人，为了同一个“虚拟偶像”，为了洛天依，才共同在一起做了这么多，不论是画图，还是编程，还是调教、后期、模型、文案、宣传，所有的过程都是以肝作为成本发电！我们都在为喜欢，投入感情和原动力，最后才有了现在的互动视频和Vtuber演示。您可以赞赏、肯定我们的项目和作品，也可以批评、否定它。但请不要侮辱或嘲讽它。请尊重为它付出、辛苦努力

郑重声明：本文不涉及相关代码及专业知识，不作为专业技术领域的解释！仅供参考和一般交流说明，请勿作为专业性质的转载和言论发表。

首先，关于我们让洛天依进行说话的这个项目，我们称为“VOCALTTS项目”（非官方同人），是一个非盈利的发电合作企划（注意只是内部开展制作时的项目名称），由我们LastDream（LD协作组）开发团队的部分成员和VOCALOID粉丝大会（VirtualVocal粉丝大会）的部分P主共同意愿才对接合作，所有参与制作和开发的作者，都是在理解VOCALOID这个软件和了解热爱洛天依这个虚拟形象的基础上达成一致合作的，大家都是在工作、放学业余时间抽空来完成这些，从中不涉及任何金钱利益，是纯粹的兴趣爱好走在一起！

并且在开发的路上，我们很大程度上受到粉丝大会的鼓励支持，以及后来粉丝大会对相关内容的不断纠正和监制调整，才能一步步坚持做到现在，说白了，就是“想听到洛天依说话”这么简单的一个想法而已。

其实在2015年很早时，就已经开始拟定和开展了这个兴趣研究工作，并且根据项目的一点可能性，不久后也拜托粉丝大会向“禾念”说明了我们想做一个关于洛天依TTS的同人创作企划，并取得了同意。（那时并没有vsinger同人网站）。当然，那时候我们也只是单纯想想和试着做而已，具体以后是什么效果，我们自己也不知道也并不抱多大期待。（其实我们对目前这个效果也如一些粉丝意见一样并不满意的，我们也明白这还有很大差距，并缺少一些感觉，但这至少是一个里程阶段，是粉丝发电的一个结果，这是最重要的！）

转眼经过了三年，至今可能算四年了，期间我们是断断续续的开发这个（实际开发用时也就不到一两个月，但是需要积累）。从一开始的采集、框架编写、调试，到最初效果出炉后，我们便已经力不从心了，那时就已经点到为止（差不多放弃）。而对于后来这个新的结果，也算是个意外了吧，我们重新拾起了这个咕了一年多的项目，让它现在重新展现到大家眼前。

这个项目，是由粉丝，为粉丝而做的，不同工作和学业的人，为了同一个“虚拟偶像”，为了洛天依，才共同在一起做了这么多，不论是画图，还是编程，还是调教、后期、模型、文案、宣传，所有的过程都是以肝作为成本发电！我们都在为喜欢，投入感情和原动力，最后才有了现在的互动视频和Vtuber演示。您可以赞赏、肯定我们的项目和作品，也可以批评、否定它。但请不要侮辱或嘲讽它。请尊重为它付出、辛苦努力的开发和创作者们。

这里声明，所有关于“VOCALOID项目”的内容我们也将无偿开放使用！禁止商业用途！同时，相对应在使用上，我们也会稍作一些限制和非商业使用条件，以免一些恶意用途的滥用影响。

洛天依五大黑暗神曲解析（洛天依同人语音合成VOCALTTS发电项目的一切）(1)

VOCALTTS非商业研究&同人项目

至于后来我们是如何做出来的，相信这个是很多人都想知道的。

有一项技术叫做语音合成（TTS），即Text to Speech，意为能将任意文字信息实时转化为标准流畅的语音朗读出来。只不过在以往的生活中大家可能并不怎么需要与接触这类技术，并不像虚拟歌姬以歌声的方式传达至我们的内心，直到科技发展的今天为我们带来便利和融入生活。例如现在我们日常生活中已经见多不怪的苹果智能语音助手Siri、小米小爱同学、天猫精灵、讯飞语音、度娘、谷歌娘等等，均属于TTS语音合成相关技术。同样，VOCALOID软件所实现的歌声合成也是属于语音合成技术的一种，但是相比TTS的基础上要更加复杂，与之不同的是，歌声和讲话是两种不同的行为及专业领域。

【以下有关技术方面内容仅供参考，有关方面的接口及模型等会进一步根据情况开放】

洛天依五大黑暗神曲解析（洛天依同人语音合成VOCALTTS发电项目的一切）(2)

基础语音合成原理

我们现在以最简单的方式说一下关于TTS技术的实现原理。TTS（Text to Speech），就是输入一段文字，然后让他合成音频这样一个过程，这里以语音合成的早期“拼接合成”为例大概可以分为以下几个步骤： 1.对你输入的文本进行判断分析（拆分获取发音，如400个发音5000个汉字等）。 2.找到与索引相对应的发音数据（事先录制好的数据，即声源） 3.使用相关算法函数进行拼接合成，即“你” “好”=“你好”，同时对拼接的音频连接处进行优化，来达到最终的语句流畅 4.调整波形、频率等参数以优化合成效果（次要过程，也可在上一过程中，主要用于改善合成效果，也包括如语速、语调等等）。

注：以上步骤仅供于初步的简单的理解和参考，且为早期拼接合成原理，不作为专业知识解释，更不要和现代语音合成模型相比。另外，现代语音合成技术已发展为神经网络模型合成，具体原理及先进技术是属于业内机密，故不会深度公开，有兴趣了解的话也可以相关开源库搜索TTS代码学习。

而TTS与歌声的语音合成的最大区别是，应用领域的不同。

歌声合成，主要强调在音色、音调、语速等发音效果上的感情，再者是其基础上密不可分的音乐知识、词曲节奏等，是赋有感情的艺术品创作。

TTS则更多强调于在自然对话的场景下，与通常，或带有一定情感事件下的对话，主要是作为语言沟通、信息传达等。

总之，两者均能实现对于机器语音的合成，但是两者用途不同，专业领域不同。如果说，某一方的软件或技术是否能够同时实现或结合这两种能力的话，那么回答是，肯定的，相关案例可以参考了解“微软小冰”，同一种声源既能说话也能唱歌等，甚至单从效果而言，完全不输于我们已经所熟知的虚拟歌姬。

顺便关于“引擎”的简要概括（形容），我们所熟知的初音未来、洛天依等虚拟歌姬，所使用的引擎是来自VOCALOID（YAMAHA雅马哈），也即可以作为软件的形式命名体现和使用（即调教）。这里要说明的是，引擎（或技术）是不一定等于软件的，它更多的则是一门技术知识、原理或专利，引擎既可以是一种驱动，也是一种核心的程序或原理知识，假设初音、洛天依等其实也是同样可以在其他“引擎”的软件上歌唱和工作的。因为软件是基于不同平台的一种操作工具，其更多的则是给用户完成一般工作的，而非开发设计阶段和底层工程，所以也是不能单以软件作为代表某一种技术的本体。另外，如Windows平台的软件使用C 开发，Linux、安卓平台的软件使用Java开发等，VOCALOID相关技术也一样可以在Windows和Mac两种平台使用不同的语言编写软件，而其中核心技术原理即“引擎”是一样的。

同理，其实我们所做的，也是一个近似于“引擎”上的实现，但是非常不成熟或者说是胚胎雏形，不过我们并不是为了做引擎才去研究，仅仅是为了想听到天依说话，而去做了这些，在此感谢所有途中因此而相遇到一起的伙伴！因此我们才能相互认识，我们才能实现了当初的一个想法！一个初衷！

关于洛天依Vtuber/Vup，以及人工智能AI未来是否会固化洛天依的人设？不会的。还记得我们是如何认识洛天依、初音未来，然后喜欢上她们的吗？即使是不了解洛天依、初音的人，也应该听过她们唱过的一些歌曲，甚至会以为那是真人歌唱的，但是那些真的是她们自己唱的吗？了解一些的应该都会知道，洛天依、初音是由一款名为VOCALOID的软件合成歌声，需要经过音乐人的创作，这是由非常非常多的P主、作者，以不同的风格和形式创造才有了今天的影响力和深入我们的内心！同样，我们做这个技术的期望也不仅是想听到，也是希望能给天依带来更多创作更多可能，供给所有作者使用和二次创作的，或者也是一种启示。

另外关于Vtuber、Vup领域，是主播以虚拟形象方式进行直播的一种形式。在日本，以绊爱为主开始影响。在国内，以虚拟次元计划为首的首个虚拟up开始，产生Vup概念。不过目前该领域依然处于发展初期，其成为虚拟Vup/Vtuber的成本和门槛也在逐渐降低。从3D形象到2D形象的动作捕捉也只需一个软件和一个普通摄像头，虽然同样满足了不同的受众群体，但也难免出现了乃至上千的虚拟主播，并且数量还在增加，且创作质量与人物设定也备受一定争议。这里我们主要是负责研发，故本文对此不做任何评价。

我们做的这个洛天依Vup/Vtuber仅仅只是作为一种技术上的实现演示，实际的实现可以不通过Vup/Vtuber所必需的具备的“中之人”，即真人在后台的操作，而AI直播的背后是没有真人的。本次的技术结果，是可以由程序自动完成动作、表情、语音对话、唱歌等相关操作。

需要注意的是，我们所做的这个洛天依Vup/Vtuber并不是首个，也不是官方，更不是一个新的概念，在此之前有如嫣汐、呆呆酱、米娜等等很多曾于B站进行实时互动直播及唱歌的虚拟AI以及现在的琉璃。但毕竟AI的表达力远不如真人的感情能带动观众，所以真正的人工智能也是很容易不被大数观众关注或者是忽略的。如果要追溯其出现时间可能于2015年之前甚至更早（未找到具体统计）。我们同时也想要表达的是，这才是虚拟AI up主、AI vup，AI vutber的真实的样子，同样以虚拟形象进行直播和互动，且真正意义上的遵守AI设定，的人工智能(障)吧。现在，各虚拟AI的效果和实际体验可能都没大家所想象中的那么好，也请能给AI们一些时间，或许我们将来能看到更多的可能，甚至能真正的和虚拟歌姬她们自然对话的那一天（非大数据式的自律学习交互），是需要一个简单的支持的。

同样，关于洛天依这个同人项目或者TTS项目我们也会尝试继续优化下去，也会不断做一些新的内容，希望和感谢能有大家的支持！

最后，关于我们，LD协作组（LastDream），相关注册名为最后的梦。一个专注于人工智能、二次元相关技术的合作性开发团队，主要目标于研究、开发机器人应用、软件等，或将二次元形象（包含原创）运用相关技术以更加人性、赋有情感的虚拟交互展现，欢迎有任何一项技能（不限于编程开发）的伙伴加入，为二次元人工智能发展助力。

（本文可能尚有不对或不正的地方欢迎私信指出，并请勿将本文作为具有专业或代表性的转载引用等）

作者：最后的梦制作组
https://www.bilibili.com/read/cv3856663
原出处： bilibili

网站首页

返回栏目

洛天依五大黑暗神曲解析（洛天依同人语音合成VOCALTTS发电项目的一切）

猜您喜欢：

相关文章