第两百六十七章概念（3 / 4）_这个吞金兽不好养

对音频信号的智能识别、编创。

具体识别对象，可以是歌曲中的鼓点、节奏点或音乐高潮。针对音乐的强度、情绪、风格、情感等维度，对音乐进行理解和打标签。在编创时，支持将音乐中人声、伴奏、吉他、钢琴等音轨分离，

智能音乐有一个非常有趣的能力，它可以自动对歌词进行续写，将一首流行歌改编成r，中文语境下支持押韵。

基于音频和视频的融合，应用更为广阔，可以实现视频配乐、音乐v和自动vlog。现在短视频特别流行，通过音视频融合，可以帮助普通创作者针对视频推荐音乐、自动生成配乐，或者针对音乐找到符合情绪和律动的视频，大幅降低作品的生产难度。

除了内容创作以外，智能媒体还可以用于视频修复和视频增强。

企鹅多媒体实验室通过深度学习敦煌壁画病害数据，形成自动识别并添加图示的一整套算法，打造出高效的ai壁画病害识别工具。

同时企鹅讯多媒体实验室也开启了对老旧影像资料进行修复的工作，解决老电影抖动、划痕、不清晰等问题，使之可以适配更高清的显示设备。

如果采取人工修复的方式，每人每天只能修复4、 5分钟影片。而基于腾讯云音视频的智能修复方案，修复一部影片只需要几个小时。

再来看看沉浸媒体（也就是vr）的关键技术和解决方案。

vr是元宇宙和全真互联的核心技术，也是音视频最具挑战的领域。

企鹅云音视频，基于企鹅多媒体实验室研发的vr全景技术，可以实现vr360超高清点播和vr360高清实时通信两大核心能力，端到端一站式全景导览方案，包括vr园区街景导航、vr360全景景区慢直播、vr数字沙盘、vr360全景会议会展直播，等等。

提升编解码压缩能力，是应用vr的关键。

vr视频因为含有三维的时间和空间信息，所以冗余高，数据体积大，对带宽的要求高。如果不进行适当压缩处理，很难存储、传输和计算，占用的资源会很多。

当前有一种压缩方式，是处理后去除25的冗余点，但渲染cube边界明显，无传输方面的处理。腾讯多媒体实验室的方案，比这种更接近原片，播放时无明显边界。而且腾讯的方案增加了传输的处理，对可视区域进行切块、渲染播放，能够节省50的带宽。

在“一部手机游云南·vr全景点播”项目中，基于腾讯云的云渲染paas解决方案，将南头古城以1:1的比例，超精细化还原到了云端，任何人都可以通过小程序畅游古城。

在同等网络条件下，传统4k无切块方案带宽需求大于 9 bps，而采用了腾讯的8k切块方案后，带宽需求小于 8 bps。

全景导览方案的四大核心技术，分别是全景拼接、点云空间重建、图像增强、点云数据压缩。

全景拼接，可以通过算法将单张照片拼接为全景照片，算法效果极佳，有效减少了画面变形、畸变。

图像增强，则是通过图像降噪、ai色彩增强技术，增强画面色彩和细节，提升人眼的主观效果。

点云空间重建，是以一个实用性很强的技术。

它可以通过全景图景深估计，重建空间点云模型，展示空间结构。因为算法经过优化，数据可以压缩至原来的六分之一，同时保持主观视觉一致，非常适配移动端展示。

基于点云重建的物体数字化技术，通过非接触式的数据采集，能够重建物体的数字模型，形成数字档案。这一技术，非常适合文物的数据采集、存档和展示，降低文物损坏风险。在零售行业，这些技术也可用于商品信息的采集、归档。

还是前面提到的敦煌研究院合作项目