一场没有多少预热效果的音乐会在Tik Tok录音室着火了。
前10分钟,观看人数突破1600万,一小时后飙升至过亿。
而这个演唱会其实是31年前的。
1991年,Beyond在红磡体育馆的舞台上首次亮相,从此成为经典。
如今,伴随着时间的推移,这场演出将于2022年夏天通过手机屏幕在直播间与亿万观众见面。
令人惊讶的是,尽管音乐会的母带被称为古董有,但是直播间播的图没糊成渣。
无论是黄家驹脸上微妙的表情,还是黄贯中弹钢琴时上下飞舞的手指,粉丝们都能在手机般的小屏幕上看得一清二楚。
动画效果略有压缩。
如此清晰的效果和细致的呈现,让很多人仿佛恍惚回到了90年代,引得粉丝直呼超越精神永存!
更值得注意的是,这种精神和情怀的背后,核心支撑是正在走向大规模商业化的AI修复技术。
众所周知,Beyond是90年代录制的,当时技术设备还非常有限。
就画面而言,能达到的水平只有540p和25FPS。
音质方面,也会受到现场噪音大等因素的影响,最终录制的歌声会大打折扣。
而Beyond的还原,画面和音质都上了一个新台阶更何况这个看似巨大的修复其实只用了一个星期,而且大部分都是AI做的,直奔是的
这种科技和效率也释放了更多人的潜在感受和需求。
是的,AI修复正在从黑科技变成常规,是时候对背后的技术原理有更清晰的认识了。
看眼线细节
其实最近几年来,大众对AI修复并不陌生。
去年央视动画和上海美术电影制片厂的很多经典动画都通过了ai修复技术,画面清晰度可以达到4K水平。
不过,与以往的一些修复工作相比,艾在这次修复音乐会视频中也关注了这三个方面:
多帧去隔行人像修复亮度,颜色和气氛调整首先看多帧去隔行
这里要先普及一个概念:什么是去隔行。
由于早期设备的处理速度或带宽的限制,许多视频记录使用隔行扫描信号。
即把整个画面平均分成一定数量的水平线,两个场分别显示画面的奇数行和偶数行。
这样,设备的高速缓存和处理速度要求可以减半。
并使用视觉暂留效应在快速回放期间,这两个画面可以呈现完整的画面。
可是,伴随着显示设备的不断发展和升级,如液晶显示器只支持逐行扫描。
这就导致了老电影在新设备上播放时非常明显的闪烁。
因此,有必要使用去隔行的方法将隔行信号转换成逐行信号。
常见的去隔行方法是不做任何修改,直接将两个连续的场拼成一帧。
但是场与场之间的拍摄时间还是会有微妙的变化。如果此时被摄物体正在运动,会导致去隔行图像中出现Rdquo问题
为了解决这个问题,AI采用了基于运动补偿的多帧去交织算法。
与传统方法相比,这种方法的一般原理是根据相邻场使用动态估计来预测图像中物体的运动,得到动态矢量根据先前的场和动态向量,可以重建新的场,然后可以对这两个场进行去交织
其特点是泛化能力更强,细节处理能力更好。
结果修复后吉他手的手部神器被完全去除,轮廓清晰。
第二个区别是对肖像复原的重视。
演唱会的视频中必然会有大量的人像镜头,很多还是面对面的特写,粉丝特别关注的镜头往往就是这些部分。
但受限于当年的拍摄设备水平,最后的结果是人和背景很容易糊在一起,五官轮廓不清晰。
为了解决这一问题,火山引擎开发的自适应人像增强算法被用于这一恢复。
该方法基于深度学习模型,可以消除整个人脸的模糊和压缩损伤,进一步重建五官。
例如,许多网友之前说,在恢复的图像中,黄家驹的眼睛有光,她的眼线可以清楚地看到。
这是因为算法重构了眼睛部分,补了更多的细节。
除了面部特征,这种算法还可以考虑到皮肤纹理,头发等细节,可以使恢复的人脸更加逼真。
此外,考虑到演唱会中拍摄到的表演者脸部不仅仅是正面,算法还考虑到了侧脸,低头,抬头,被话筒遮挡等情况,可以解决很多极端情况下的修复问题。
第三个方面体现在色彩亮度的增强。
据技术提供商火山引擎介绍,原片中其实存在大量的过度曝光和暗场,色彩还原度不够高。
这些问题不是简单的通过调节亮度或者颜色就能解决的。
以死黑场景为例,因为影片本身还是有严重的噪底如果直接点亮黑暗场景,同时会放大噪底
至于颜色,需要平衡两个因素:修补褪色和保留复古感。
在这方面,火山引擎会根据具体片源的效果和审美评分进行不同方面的调整。
根据不同帧的颜色统计信息,在不同区域进行自适应亮度增强,从而找到最佳的明暗平衡效果。
据技术人员介绍,上述工作几乎全部由AI完成,只有部分参数是人工参与的。
就连画质的评价,AI都参与了一波。
这一次,使用VQScore图像质量算法来评估电影效果。
该算法可在ICME 2021的中找到,压缩UGC视频质量评测比赛中,我赢了无参考视频质量评测MOS track 第一名。
拯救古老的无线电虫
视频修的细节很全,但既然是演唱会,光修画面是不够的,音质体验才是触动观众心弦的关键。
受限于当时的技术水平和录音设备,原版DVD其实是存在各种音质问题的。
例如:
噪声:设备和环境的噪声影响音质带宽,设备,压缩算法等导致音频截止频率响度低,响度问题导致听觉不适为了解决这些问题,火山引擎的音频技术团队在修复Beyond concert的音质时主要使用了三种算法
音频降噪算法
首先,我们来看看音频降噪算法的效果。
由于90年代演唱会的电台接收条件有限,现场环境嘈杂,原始音频中的噪音很明显。
修复后,黄家驹的声音和音乐变得更加清晰和干净。
这在频谱图中很明显:降噪前,音频频谱浑浊,降噪后,频谱清晰很多。
值得注意的是,传统的降噪方案通常是针对人声的,在演唱会这样的场景下很容易误伤音乐本身。
因此,技术团队在为演唱会设计降噪算法之初,就考虑到了降噪带来的音乐失真,通过在训练时加入音乐数据,实现了音乐场景和人声场景的兼容。
也就是说,在保留人的声音,歌声和音乐本身的同时,可以抑制其他噪音。
音频超分割算法
除了噪音,由于演唱会拾音设备,录音硬件,存储压缩等技术原因,受损的声音带宽也会影响听觉体验
所以修复团队也引入了音频超分算法。
该算法主要是扩展音乐会中人声部分的频带,使人声更加清晰。
从蓝框中可以看出,原声音频的高频部分在过谱后得到了扩展和增强。
响度算法
最后通过声源分离算法提取音乐会中演唱的部分,再通过响度算法调整响度。
这是因为在演唱会现场拾音的过程中,人唱歌的声音可能会被乐器和环境音所掩盖。
将演唱部分的人声单独提取出来,调节响度,再与原声混音,可以让整体声音听起来更舒服。
一个幕后故事是,无论是画质修复还是音频修复,都需要人力进行最后的质量评估。
修复组的程序员恰好是一群听着《海阔天空》,《我们的日子》长大的人。
因此,修复者在处理Beyond演唱会的旧影像时,抱着粉丝的心态一遍又一遍地听,看修复效果,试图用算法在今天重现当年红馆的热烈气氛。
他们的标准也简单明了:
我必须感觉我是第一个到那里的。
另外,值得一提的是,修理工说这次修理基本是AI做的目前,这样的技术能力已经集成到火山引擎的智能处理和音频技术产品中
人工智能修复技术的B/C端
当一场网络怀旧演唱会在网络上掀起热潮时,AI修复技术再次成为热门技术。
一次又一次地在出圈,这种网络名人的Rdquo技术的发展路径和商业化前景逐渐清晰。
第一阶段是新兴技术的探索期。
现阶段,老胶片修复的相关技术手段已经从实验室走向民间以哔哩哔哩Upmain Otani的视频为代表的个人修复作品,屡屡引起足够的关注和热议
大谷修复工程
伴随着云和AI的进一步融合,各大技术厂商开始把网络名人的RdquoAI引入家庭开启了AI修复技术的第二阶段:技术产业化过程中的试验期。
这时更多的工业级修复工程开始出现在大众面前,但还是有单个项目,单点突破的特点。
比如之前西瓜视频和火山引擎推出的经典视频4K修复计划,即通过产业化的AI技术,批量修复了《哪吒传奇》《黑猫警长》等数百部经典动画。
现在,你可能不知道的是,这样的技术已经不仅仅停留在公益项目和to—b产品的阶段,你甚至可以在打开Tik Tok的时候使用它。
例如,图像质量恢复的相关算法已经集成到Tik Tok个人用户的作品发布功能中即使没有专业的拍摄设备,用户提交的作品也可以通过AI自动修复清晰度,色彩,瑕疵,扭曲等问题,达到很好的效果
可见,经过长期的技术积累和实践,AI修复技术是一个成熟技术产品mdash的第三阶段,mdash大规模商业落地可能已经开始。
尤其是像字节跳动这样的厂商,旗下子公司有Tik Tok等平台,每天都会产生海量的音视频UGC内容贡献。
从修复动画到超越演唱会,一系列技术问题的突破和解决,最终都会直接体现在产品层面。
而且不仅仅是在云端,在C端也已经显示出了潜力。
其实这也是AI技术不断普及和去中心化过程中的一个典型案例。
作为普通用户,我们在从中受益的时候,自然会喜欢。
说说你最希望AI修复的旧事正确
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
推荐阅读
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57
2022-07-10 08:57