单田芳5d环绕音乐欣赏：单田芳声音重现

逗爷 2023-03-12 07:56:57 457

单田芳5d环绕音乐欣赏：单田芳声音重现上海交通大学媒体和传播院副院长、教授李康化表示，声音主要是三大类：一种叫基调声，一种叫信号声，一种叫坐标声。“对元宇宙来说，最重要的应该是坐标声，坐标声在我们日常生活中也有，比如进入寺庙，寺庙里有和尚在敲木鱼，提醒你在什么样的环境里。比如今天在喜马拉雅现场，你听到这个声音告诉你现在已经进入到喜马拉雅。未来在元宇宙的声景打造中，可能最为重要的是一个原生性的独特声音。”未来在AI、VR、5G、量子通讯等新技术的加持下，元宇宙时代，声景会有一种怎样的走向？不仅仅是AIGC技术等的生产者工具赋能，结合声音和元宇宙，卢恒透露，一方面，喜马拉雅正在做声音方面的数字孪生以及语音交互，比如在合成语音时，会同时加进每个人的情感，使语音合成听起来更亲切，更有场景感。另一方面，在做声音元宇宙时也会考虑到音效与全景声，全景声是元宇宙非常重要的组成部分，比如我们在虚拟世界遨游的时候，如果有全景声的体验会大大增加沉浸

在喜马拉雅app上搜索著名评书大师“单田芳”，会有一个“单田芳声音重现”系列，《明朝那些事儿》、《民国四大家族》、《济公传》等音频作品得到新的呈现。

单田芳5d环绕音乐欣赏：单田芳声音重现(1)

“我们团队和单田芳老先生的家属进行了充分的沟通，从他们那边购买了单老的版权，为了保存单老说评书的方式，我们也是复刻了单老的声音，用单老的声音制作新的专辑。”喜马拉雅智能语音实验室科学家、音视频技术负责人卢恒说。不仅仅是大师声音的复刻，利用智能语音技术，很多爸爸妈妈只要输入5分钟的语音，喜马拉雅就能把所有的儿童故事转成爸爸妈妈的声音，这样很多小朋友听故事时就能听到爸爸妈妈的声音了。

这背后其实就是一种名叫AIGC的技术，即用AI生成内容。卢恒认为，通过AI去生成内容，一方面能低成本高效率的生产有声内容，满足用户需求的供给；另一方面可以用不同人的音色去生产，或做定制化的生产，实现千人千面的生产，这对未来的元宇宙来说，能满足每个人不同的需求。第三，在元宇宙里面，如果要求每个人都有自己的特点或者特色，需要把创作者工具开放给他们，相当于每个人都能用我们的平台、服务满足他们各自的需求。

“当目前为止，我们AIGC整个播放量已经超过了几亿的次数。喜马拉雅上有很多比较优秀的主播，合作中，可以把他们的声音用AIGC方式复刻，在音库构建中做优化。最开始我们需要30天构建一个AIGC的音库，现在可能只需要5天的时间就能完成。”卢恒说。

不仅仅是AIGC技术等的生产者工具赋能，结合声音和元宇宙，卢恒透露，一方面，喜马拉雅正在做声音方面的数字孪生以及语音交互，比如在合成语音时，会同时加进每个人的情感，使语音合成听起来更亲切，更有场景感。另一方面，在做声音元宇宙时也会考虑到音效与全景声，全景声是元宇宙非常重要的组成部分，比如我们在虚拟世界遨游的时候，如果有全景声的体验会大大增加沉浸感。

文化元宇宙的中国印象第七期工作坊分享中，专家学者，以及企业界的实践者，就声音元宇宙等话题进行了深入的探讨。

元宇宙声景打造，坐标声很关键

1877年美国第一部固定电话出现，大大提升了声音传播的效能。之后广播、电影电视的出场，完美实现了传受双方时空之维的剥离。到了互联网时代，声景从内容意识走向创作意识，从平面语感走向立体语感，从线性叙事走向了时空叙事。

未来在AI、VR、5G、量子通讯等新技术的加持下，元宇宙时代，声景会有一种怎样的走向？

上海交通大学媒体和传播院副院长、教授李康化表示，声音主要是三大类：一种叫基调声，一种叫信号声，一种叫坐标声。“对元宇宙来说，最重要的应该是坐标声，坐标声在我们日常生活中也有，比如进入寺庙，寺庙里有和尚在敲木鱼，提醒你在什么样的环境里。比如今天在喜马拉雅现场，你听到这个声音告诉你现在已经进入到喜马拉雅。未来在元宇宙的声景打造中，可能最为重要的是一个原生性的独特声音。”

元宇宙时代，我们的感知技术已经临近突破点。“我从来不认为元宇宙只是一个科技概念，虽然元宇宙对科技有巨大的需求，但它本身并不是科技，它只不过是运用科技在数字世界里进行一些场景的应用。”李康化认为，今天人与机器的协作主要是人到机器，未来在元宇宙时代可能是机器到人。我们人到机器，依赖的是终端，未来可能机器到人，就需要新的接口。人到机器需要脑机接口，机器到人就需要机脑接口，这个顺序的改变会带来一整套的改变。

在李康化看来，元宇宙包括三个重要的特性，首先是感知力，第二是交互性，第三是沉浸，这三点是未来元宇宙声景打造的前提条件。元宇宙的声景打造，主要有四种：识别式的声景，陪伴式的声景，交互式的声景、沉浸式的声景。识别式、陪伴式、交互式三者结合起来的结果是沉浸式。

“梅兰芳今天不在了，我们通过高保真的数字技术，不仅仅把他的形象呈现出来，关键是他能唱戏吗？那好，我们就沉浸在他的京剧世界里面，把他做出来。当然人物的形象和声音形象拟合在一起，它是一个外貌、形体、语音、表演完全捏合在一起的形象。这里就传承了优秀的中华传统文化，让消费者，特别是京剧爱好者沉浸在梅兰芳大师的表演之中。”李康化说。

打造元宇宙声音，技术上先看四步

说到声音，上海的另一家企业声网也不得不提。目前，每天在声网上运行的程序有几十万个，在声网的音视频大网上进行音视频通话有数十亿分钟，包括喜马拉雅也是声网在做技术合作的一家企业。

文化元宇宙的中国印象第七期工作坊上，声网泛娱乐产品线负责人李斯特表示，现在大部分元宇宙应用还集中在视觉层面，通过视觉3D空间塑造临场感。但其实听觉系统的塑造，也非常重要，否则在元宇宙里的用户很容易因为声音而“出戏”。

李斯特表示，把声音放到元宇宙里大体分为四步：

第一步把声音提取，把真实环境中需要进入元宇宙的声音识别出来。

第二步网络传输，低延迟的声音传输，足够低的卡顿。

第三是环境构建，真实环境的声音进入到元宇宙当中，必须跟元宇宙发出声音的音源位置、发出声音的设备，你的环境要有高度的一致性的。

最后是艺术化处理，包括喜马拉雅平台上的变声，就是艺术化处理中的一种，让用户和元宇宙的形象有一致性。

比如在声音提取方面，对于遇到的噪音，声网一般会分为两大类型：一种是稳态的噪音，一种是非稳态的噪音。目前，声网可以把非稳态噪音和稳态噪音，以及需要分离出来的人声能很好的分离出来，实现降噪效果。过往很多降噪模型是针对噪音建模，声网的AI降噪建模的对象是针对人的语音，能把人的声音有效的提取出来。

在网络传输层面，实时互动领域，如果在场景里的沉浸感要求越高，卡顿现象对用户体验的影响就越大，卡顿率每增加0.1%，留存会有0.5%的降低。这方面，声网做了优化，卡顿率可以低到0.2%。

另外在环境构建中，声网最近几年努力在投入的一个方向就是元宇宙的空间音频，最终要实现的效果包括模拟声音的锥形传播，模拟在立体空间中不同方位的听感差异，模拟空气衰减，随着音源的距离，让声音的音量强度有一定的变化，然后是人声模糊。

李斯特说，人的听觉时具有空间方位感。不同的声源方位具有不同的声像位置，人的听觉系统能够区分出这些声源的空间方位。人耳在听觉定位上也有三个要素，即时间差（相位差）、强度差（声级差）和音色差。当声源从我们正前方传来时，声波会同时到达双耳。如果声源从声音方位感在不同的空间环境里，由于不同的空间特性所致，如空间的大与小、开放式与封闭式之别，它们会使声音到达人耳的时间、强度有所不同，人耳可以由此辨别出声音的方向和声源所处的位置。为此，声网做了一个复杂化的模型，把人的头部作为一个球面，构建它周围足够多的头部点位，可以实现识别声音传播来源位置的效果。

“比如说元宇宙里有一个人边说话边远离我们，我们可以用上距离衰减的效果，对应到真实环境中音量降低的幅度，自然环境中距离每增加1倍，直达声的衰减大概是6个分贝。”不过，单独这个点还不够模拟出声音的立体感，在声音中有一个掩蔽效应，如果两个声音频率很接近，他们的频率会互相遮盖，利用声音的掩蔽效应，我们在元宇宙中还原窃窃私语的声音。

我们在真实环境中，声音遇到障碍物的时候，有些时候会被障碍物吸收，如软性的材料，也有可能被障碍物反射回来，如墙壁。在元宇宙空间中同样会构建这样的环境。比如在元宇宙中关上一扇门，门外的声音就会明显变小，再打开门，门外的声音就可以清晰的传入。

李斯特说，我们3D空间音频在元宇宙空间怎么用，有什么样的作用？比如我们在元宇宙球场看网球比赛，在球场的不同区域听到的声音应该不一样的，我们如果在看台上，耳边的最大声音时邻座观众的欢呼，如果我们在球场中央，我们听到最大的是网球落地的声音、对手的呐喊和裁判的声音，其次才是观众的声音，甚至说在元宇宙的场景里面走动，在走动过程中会发现听到的声音是不一样的。

”这是空间音频算法，我们不依赖特定硬件，能够支持全平台的应用。“李斯特说。

元宇宙声音，跳出声音走入场景

目前，喜马拉雅有声的内容，如果一个人不眠不休去听的话，要听四千多年，这四千多年怎么筛选？

喜马拉雅副总裁、城市文化公司CEO张哓平说：“到了元宇宙时代，我们需要把这些内容通过算法做重新筛选，我们建立了针对城市文化的内容调色盘，把所有内容归类到物质文化、精神文化、制度文化三类，未来为元宇宙进行内容赋能。”

“我们发现，纯声音的表现形式受到载体和介质的限制，在文化传播中、包括在未来的元宇宙时代，一定会有空间加入，会有很多空间和场景化的东西。”目前在实践过程中，张晓平表示，会遇到这几个问题：

第一个问题，内容丰富度是不够的，尤其是适合元宇宙场景传播的内容和形式。元宇宙时代需要有沉浸、有交互，如果只是解决技术问题，但没有解决人得到了什么样的文化和精神享受，就难以持久。

第二个问题，技术本身还不成熟。目前硬件体验的舒适性、友好型还不够。国内一些企业之前在推元宇宙阅读，用AR或VR眼镜，把书放到屏幕上，让你去读，但你戴上它是晕的，更不要说去阅读。从产品应用和技术判断，硬件要到成熟，可能还需一到两年。

第三个问题，应用场景。在城市中间，到底未来什么样的场景才是元宇宙的需求场景？文旅可能会是一个重要场景，但它能不能代替人的真实体验？线上体验和真实体验之间的差别是什么？这些东西未来都值得探索。

“当元宇宙内容足够丰富，在有声方案基础上加入空间和场景来解决的时候，那么声音会是其中一个重要的支撑。”张晓平说，喜马拉雅会坚守在有声和AI方面的探索，用全景声、AIGC和未来所有声音的技术，为元宇宙时代的各种探索赋能。

元宇宙声音打造，或遭遇三大问题

通过数字声音所构建的听觉符号，现代人可以在网络间进行数字化的情感表述，并且以听觉为中心获得具身性的感观体验，这一点是未来要去做的。同时，在元宇宙时代，声音打造可能面临哪些问题呢？

上海交通大学媒体和传播院副院长、教授李康化认为，目前，它主要面临三个问题：

第一是声音的辨识性。现在声音的辨识性做得还不够，还有点雷同。在现实生活中每个人的声音是不一样的，就像中国来讲，每个地方还有不同的方言，元宇宙里面有没有方言呢？好象没有。我们能不能合成出更多的语音，让彼此之间有区隔。

第二是伦理问题。如果在元宇宙里面都变身了，声音作为身份掩护，它会带来一个问题，包括虚拟化身和多个分身之间的虚拟认同问题。

第三是可能带来版权问题。《民法典》规定对自然人的声音保护要参照肖像权的有关规定，但元宇宙声景的搭建核心要素是虚拟化身，并不是自然人，它就不享有声音权，如果出现污损，丑化其他人的声音该怎么办？

李康化表示，目前，声音元素在元宇宙可以复现，处理好人与物，包括自然的环境，人与人与社会的交往，未来会进一步形成上层建筑，在经济系统要可营利。元宇宙很多商业模式的路还没有走得很通，未来在经济系统方面要怎么做？人在元宇宙里面怎么交往，数字人与数字人之间怎么交往，会不会存在现实生活中的隐私？行为标准是怎样的？此外，还得形成文化风俗。这是未来声音景观在未来元宇宙构建的时候要思考的问题，走向可营利、规范化和人性化。

“文化元宇宙的中国印象”前沿工作坊是什么？

“文化元宇宙的中国印象”前沿工作坊由华东政法大学“经天学者”特聘教授臧志彭、同济大学人文学院副院长解学芳教授、清华大学新闻与传播学院张铮副院长作为策划人与召集人，联合全国近30所高校院系科研机构共同举办，由中国文化产业协会和上海市文化创意产业促进会指导，清华大学元宇宙文化实验室、CICG元宇宙国际传播实验室、北京大学全球创新创业中心等机构协办，并得到中国民营科技实业家协会、中国广告协会、中国通信工业协会以及上海市多个元宇宙、区块链、创意产业等相关行业协会支持，已成为具有一定社会影响力的文化元宇宙学术品牌活动。

此前，“文化元宇宙的中国印象”前沿工作坊走进了上海宽创国际文化科技股份有限公司、上海风语筑文化科技股份公司等，这次走入传媒企业，后续仍将有上海元宇宙企业的“打卡”，并分享相关的深度文章，欢迎持续关注。

网站首页

返回栏目