单田芳5d环绕音乐欣赏:单田芳声音重现
单田芳5d环绕音乐欣赏:单田芳声音重现上海交通大学媒体和传播院副院长、教授李康化表示,声音主要是三大类:一种叫基调声,一种叫信号声,一种叫坐标声。“对元宇宙来说,最重要的应该是坐标声,坐标声在我们日常生活中也有,比如进入寺庙,寺庙里有和尚在敲木鱼,提醒你在什么样的环境里。比如今天在喜马拉雅现场,你听到这个声音告诉你现在已经进入到喜马拉雅。未来在元宇宙的声景打造中,可能最为重要的是一个原生性的独特声音。”未来在AI、VR、5G、量子通讯等新技术的加持下,元宇宙时代,声景会有一种怎样的走向?不仅仅是AIGC技术等的生产者工具赋能,结合声音和元宇宙,卢恒透露,一方面,喜马拉雅正在做声音方面的数字孪生以及语音交互,比如在合成语音时,会同时加进每个人的情感,使语音合成听起来更亲切,更有场景感。另一方面,在做声音元宇宙时也会考虑到音效与全景声,全景声是元宇宙非常重要的组成部分,比如我们在虚拟世界遨游的时候,如果有全景声的体验会大大增加沉浸
在喜马拉雅app上搜索著名评书大师“单田芳”,会有一个“单田芳声音重现”系列,《明朝那些事儿》、《民国四大家族》、《济公传》等音频作品得到新的呈现。
“我们团队和单田芳老先生的家属进行了充分的沟通,从他们那边购买了单老的版权,为了保存单老说评书的方式,我们也是复刻了单老的声音,用单老的声音制作新的专辑。”喜马拉雅智能语音实验室科学家、音视频技术负责人卢恒说。不仅仅是大师声音的复刻,利用智能语音技术,很多爸爸妈妈只要输入5分钟的语音,喜马拉雅就能把所有的儿童故事转成爸爸妈妈的声音,这样很多小朋友听故事时就能听到爸爸妈妈的声音了。
这背后其实就是一种名叫AIGC的技术,即用AI生成内容。卢恒认为,通过AI去生成内容,一方面能低成本高效率的生产有声内容,满足用户需求的供给;另一方面可以用不同人的音色去生产,或做定制化的生产,实现千人千面的生产,这对未来的元宇宙来说,能满足每个人不同的需求。第三,在元宇宙里面,如果要求每个人都有自己的特点或者特色,需要把创作者工具开放给他们,相当于每个人都能用我们的平台、服务满足他们各自的需求。
“当目前为止,我们AIGC整个播放量已经超过了几亿的次数。喜马拉雅上有很多比较优秀的主播,合作中,可以把他们的声音用AIGC方式复刻,在音库构建中做优化。最开始我们需要30天构建一个AIGC的音库,现在可能只需要5天的时间就能完成。”卢恒说。
不仅仅是AIGC技术等的生产者工具赋能,结合声音和元宇宙,卢恒透露,一方面,喜马拉雅正在做声音方面的数字孪生以及语音交互,比如在合成语音时,会同时加进每个人的情感,使语音合成听起来更亲切,更有场景感。另一方面,在做声音元宇宙时也会考虑到音效与全景声,全景声是元宇宙非常重要的组成部分,比如我们在虚拟世界遨游的时候,如果有全景声的体验会大大增加沉浸感。
文化元宇宙的中国印象第七期工作坊分享中,专家学者,以及企业界的实践者,就声音元宇宙等话题进行了深入的探讨。
元宇宙声景打造,坐标声很关键
1877年美国第一部固定电话出现,大大提升了声音传播的效能。之后广播、电影电视的出场,完美实现了传受双方时空之维的剥离。到了互联网时代,声景从内容意识走向创作意识,从平面语感走向立体语感,从线性叙事走向了时空叙事。
未来在AI、VR、5G、量子通讯等新技术的加持下,元宇宙时代,声景会有一种怎样的走向?
上海交通大学媒体和传播院副院长、教授李康化表示,声音主要是三大类:一种叫基调声,一种叫信号声,一种叫坐标声。“对元宇宙来说,最重要的应该是坐标声,坐标声在我们日常生活中也有,比如进入寺庙,寺庙里有和尚在敲木鱼,提醒你在什么样的环境里。比如今天在喜马拉雅现场,你听到这个声音告诉你现在已经进入到喜马拉雅。未来在元宇宙的声景打造中,可能最为重要的是一个原生性的独特声音。”
元宇宙时代,我们的感知技术已经临近突破点。“我从来不认为元宇宙只是一个科技概念,虽然元宇宙对科技有巨大的需求,但它本身并不是科技,它只不过是运用科技在数字世界里进行一些场景的应用。”李康化认为,今天人与机器的协作主要是人到机器,未来在元宇宙时代可能是机器到人。我们人到机器,依赖的是终端,未来可能机器到人,就需要新的接口。人到机器需要脑机接口,机器到人就需要机脑接口,这个顺序的改变会带来一整套的改变。
在李康化看来,元宇宙包括三个重要的特性,首先是感知力,第二是交互性,第三是沉浸,这三点是未来元宇宙声景打造的前提条件。元宇宙的声景打造,主要有四种:识别式的声景,陪伴式的声景,交互式的声景、沉浸式的声景。识别式、陪伴式、交互式三者结合起来的结果是沉浸式。
“梅兰芳今天不在了,我们通过高保真的数字技术,不仅仅把他的形象呈现出来,关键是他能唱戏吗?那好,我们就沉浸在他的京剧世界里面,把他做出来。当然人物的形象和声音形象拟合在一起,它是一个外貌、形体、语音、表演完全捏合在一起的形象。这里就传承了优秀的中华传统文化,让消费者,特别是京剧爱好者沉浸在梅兰芳大师的表演之中。”李康化说。
打造元宇宙声音,技术上先看四步
说到声音,上海的另一家企业声网也不得不提。目前,每天在声网上运行的程序有几十万个,在声网的音视频大网上进行音视频通话有数十亿分钟,包括喜马拉雅也是声网在做技术合作的一家企业。
文化元宇宙的中国印象第七期工作坊上,声网泛娱乐产品线负责人李斯特表示,现在大部分元宇宙应用还集中在视觉层面,通过视觉3D空间塑造临场感。但其实听觉系统的塑造,也非常重要,否则在元宇宙里的用户很容易因为声音而“出戏”。
李斯特表示,把声音放到元宇宙里大体分为四步:
第一步把声音提取,把真实环境中需要进入元宇宙的声音识别出来。
第二步网络传输,低延迟的声音传输,足够低的卡顿。
第三是环境构建,真实环境的声音进入到元宇宙当中,必须跟元宇宙发出声音的音源位置、发出声音的设备,你的环境要有高度的一致性的。
最后是艺术化处理,包括喜马拉雅平台上的变声,就是艺术化处理中的一种,让用户和元宇宙的形象有一致性。
比如在声音提取方面,对于遇到的噪音,声网一般会分为两大类型:一种是稳态的噪音,一种是非稳态的噪音。目前,声网可以把非稳态噪音和稳态噪音,以及需要分离出来的人声能很好的分离出来,实现降噪效果。过往很多降噪模型是针对噪音建模,声网的AI降噪建模的对象是针对人的语音,能把人的声音有效的提取出来。
在网络传输层面,实时互动领域,如果在场景里的沉浸感要求越高,卡顿现象对用户体验的影响就越大,卡顿率每增加0.1%,留存会有0.5%的降低。这方面,声网做了优化,卡顿率可以低到0.2%。
另外在环境构建中,声网最近几年努力在投入的一个方向就是元宇宙的空间音频,最终要实现的效果包括模拟声音的锥形传播,模拟在立体空间中不同方位的听感差异,模拟空气衰减,随着音源的距离,让声音的音量强度有一定的变化,然后是人声模糊。
李斯特说,人的听觉时具有空间方位感。不同的声源方位具有不同的声像位置,人的听觉系统能够区分出这些声源的空间方位。人耳在听觉定位上也有三个要素,即时间差(相位差)、强度差(声级差)和音色差。当声源从我们正前方传来时,声波会同时到达双耳。如果声源从声音方位感在不同的空间环境里,由于不同的空间特性所致,如空间的大与小、开放式与封闭式之别,它们会使声音到达人耳的时间、强度有所不同,人耳可以由此辨别出声音的方向和声源所处的位置。为此,声网做了一个复杂化的模型,把人的头部作为一个球面,构建它周围足够多的头部点位,可以实现识别声音传播来源位置的效果。
“比如说元宇宙里有一个人边说话边远离我们,我们可以用上距离衰减的效果,对应到真实环境中音量降低的幅度,自然环境中距离每增加1倍,直达声的衰减大概是6个分贝。”不过,单独这个点还不够模拟出声音的立体感,在声音中有一个掩蔽效应,如果两个声音频率很接近,他们的频率会互相遮盖,利用声音的掩蔽效应,我们在元宇宙中还原窃窃私语的声音。
我们在真实环境中,声音遇到障碍物的时候,有些时候会被障碍物吸收,如软性的材料,也有可能被障碍物反射回来,如墙壁。在元宇宙空间中同样会构建这样的环境。比如在元宇宙中关上一扇门,门外的声音就会明显变小,再打开门,门外的声音就可以清晰的传入。
李斯特说,我们3D空间音频在元宇宙空间怎么用,有什么样的作用?比如我们在元宇宙球场看网球比赛,在球场的不同区域听到的声音应该不一样的,我们如果在看台上,耳边的最大声音时邻座观众的欢呼,如果我们在球场中央,我们听到最大的是网球落地的声音、对手的呐喊和裁判的声音,其次才是观众的声音,甚至说在元宇宙的场景里面走动,在走动过程中会发现听到的声音是不一样的。
”这是空间音频算法,我们不依赖特定硬件,能够支持全平台的应用。“李斯特说。
元宇宙声音,跳出声音走入场景
目前,喜马拉雅有声的内容,如果一个人不眠不休去听的话,要听四千多年,这四千多年怎么筛选?
喜马拉雅副总裁、城市文化公司CEO张哓平说:“到了元宇宙时代,我们需要把这些内容通过算法做重新筛选,我们建立了针对城市文化的内容调色盘,把所有内容归类到物质文化、精神文化、制度文化三类,未来为元宇宙进行内容赋能。”
“我们发现,纯声音的表现形式受到载体和介质的限制,在文化传播中、包括在未来的元宇宙时代,一定会有空间加入,会有很多空间和场景化的东西。”目前在实践过程中,张晓平表示,会遇到这几个问题:
第一个问题,内容丰富度是不够的,尤其是适合元宇宙场景传播的内容和形式。元宇宙时代需要有沉浸、有交互,如果只是解决技术问题,但没有解决人得到了什么样的文化和精神享受,就难以持久。
第二个问题,技术本身还不成熟。目前硬件体验的舒适性、友好型还不够。国内一些企业之前在推元宇宙阅读,用AR或VR眼镜,把书放到屏幕上,让你去读,但你戴上它是晕的,更不要说去阅读。从产品应用和技术判断,硬件要到成熟,可能还需一到两年。
第三个问题,应用场景。在城市中间,到底未来什么样的场景才是元宇宙的需求场景?文旅可能会是一个重要场景,但它能不能代替人的真实体验?线上体验和真实体验之间的差别是什么?这些东西未来都值得探索。
“当元宇宙内容足够丰富,在有声方案基础上加入空间和场景来解决的时候,那么声音会是其中一个重要的支撑。”张晓平说,喜马拉雅会坚守在有声和AI方面的探索,用全景声、AIGC和未来所有声音的技术,为元宇宙时代的各种探索赋能。
元宇宙声音打造,或遭遇三大问题
通过数字声音所构建的听觉符号,现代人可以在网络间进行数字化的情感表述,并且以听觉为中心获得具身性的感观体验,这一点是未来要去做的。同时,在元宇宙时代,声音打造可能面临哪些问题呢?
上海交通大学媒体和传播院副院长、教授李康化认为,目前,它主要面临三个问题:
第一是声音的辨识性。现在声音的辨识性做得还不够,还有点雷同。在现实生活中每个人的声音是不一样的,就像中国来讲,每个地方还有不同的方言,元宇宙里面有没有方言呢?好象没有。我们能不能合成出更多的语音,让彼此之间有区隔。
第二是伦理问题。如果在元宇宙里面都变身了,声音作为身份掩护,它会带来一个问题,包括虚拟化身和多个分身之间的虚拟认同问题。
第三是可能带来版权问题。《民法典》规定对自然人的声音保护要参照肖像权的有关规定,但元宇宙声景的搭建核心要素是虚拟化身,并不是自然人,它就不享有声音权,如果出现污损,丑化其他人的声音该怎么办?
李康化表示,目前,声音元素在元宇宙可以复现,处理好人与物,包括自然的环境,人与人与社会的交往,未来会进一步形成上层建筑,在经济系统要可营利。元宇宙很多商业模式的路还没有走得很通,未来在经济系统方面要怎么做?人在元宇宙里面怎么交往,数字人与数字人之间怎么交往,会不会存在现实生活中的隐私?行为标准是怎样的?此外,还得形成文化风俗。这是未来声音景观在未来元宇宙构建的时候要思考的问题,走向可营利、规范化和人性化。
“文化元宇宙的中国印象”前沿工作坊是什么?
“文化元宇宙的中国印象”前沿工作坊由华东政法大学“经天学者”特聘教授臧志彭、同济大学人文学院副院长解学芳教授、清华大学新闻与传播学院张铮副院长作为策划人与召集人,联合全国近30所高校院系科研机构共同举办,由中国文化产业协会和上海市文化创意产业促进会指导,清华大学元宇宙文化实验室、CICG元宇宙国际传播实验室、北京大学全球创新创业中心等机构协办,并得到中国民营科技实业家协会、中国广告协会、中国通信工业协会以及上海市多个元宇宙、区块链、创意产业等相关行业协会支持,已成为具有一定社会影响力的文化元宇宙学术品牌活动。
此前,“文化元宇宙的中国印象”前沿工作坊走进了上海宽创国际文化科技股份有限公司、上海风语筑文化科技股份公司等,这次走入传媒企业,后续仍将有上海元宇宙企业的“打卡”,并分享相关的深度文章,欢迎持续关注。