航海家号AI修复,挑战与机遇
众所周知,一个系列的蓝光重制,在商业上是根本不回本的。作为星际迷航的粉丝,我们必须不能幻想Paramount给航海家号和DS9做重制,要重视自己和互联网网友的智慧。因此AI修复可以说是绕不开的话题。
什么是深度学习修复?
深度学习算法是一种信息恢复的技术。简单的说,AI经过喂数据训练,能够总结出视频和图片质量劣化的规律,掌握规律以后就能从压缩和破坏的信息中重建出原有信息。
以视频为例,视频可以看作由多个图片构成的队列。因此视频固然适用于图片AI。
但是视频和静态图片存在显著区别,视频一秒由24帧相关的画面构成。以电视剧举例,ST电视剧往往采用固定镜头或者缓慢的缩放镜头,这些镜头持续2-5秒,因此时间尺度上具有更多相似性。不久之前,诞生了一类视频AI,它们能对时间尺度上的信息进行整合,并且对空间细节进行更好的恢复。但是原理呢?
为什么时间尺度的信息那么神奇?可以想象一下有20x20像素的画布,里面包含10条0.5像素宽的竖线,对于真实场景,这些细线的运动颗粒度远超过20像素表达的分辨率,假如它们以0.05像素/帧去运动,经过24帧运动了1.2像素,像素是不能分割的,因此你其实看不到细线在动,只能看见10个黑点在1个像素空间内反复抖动。假如经过72帧,你能看见10黑点整体运动了4个像素位置。但是因为抖动仍然看不出这是一条线。
但是这些像素点的运动,是无规律的吗?明显不是,它其实代表了一个真实细节在该分辨率下的劣化特征。可以认为特定的细节在此画布上会以某种“规律”降级成前面描述的抖动和混叠。这是视频蕴含的一种特殊信息。图片区别在于,图片不动,自然没有抖动。
前面所述“视频AI”经过训练,对时间上出现的混叠信息进行分析处理,一旦它学到了时间上细节降级的方式,反过来它就能重建出高质量的细节信息。也就是80x80的画布上2像素宽的10根竖线。
相比于图片AI,它的优势主要有
1.极高质量的重建。显存足够的情况下,以28帧为一个序列就可以重建出3倍分辨率的画面细节。理论上,80帧尺度的序列效果更好,其实变化后的画面更难
2.时间上的稳定性。在同一个序列内,重建出的画面具有抗突变能力。细小的纹理比较稳定。这个特性有利于视觉上的流畅。
3.足够柔和自然。在相似的锐度下,视频AI有效细节更多。因此它不需要太高的锐度。对比之下图片专用AI在锐化的过程中细节不能持续的增加,图片锐度增长的同时,细节有损耗。(静态信息不能凭空变出来)
但是,为什么是视频AI?
事物有好的地方,必然有折中和遗憾的地方。视频AI缺点呢也存在,为什么非要用视频而不是图片呢?
根据第一性原则,大家费尽心力研究AI不就是为了清晰度。所以现有的技术里,清晰度最高,最先进的是视频AI模型。这是技术路线上的底气。
相信各位再次观看航海家号的时候,是希望得到更高质量和新鲜的体验。那么与其退步使用一下效果普通的图片超分算法,直接用最高质量的视频算法更有价值。
其次视频AI算法的短板,是可以克服的。例如通过减轻动态模糊和增强纹理细节,我找到比较合适的修复参数。
另外如果不让更多人知道视频多帧超分,这个技术在互联网就不能发光发热,转向到更新的技术路线是对To boldly go where no one has gone before的致敬,也会唤起更多人后续的工作。
视频AI的挑战:
1.剧烈运动画面的兼容性差,模型对场景变化的容忍度不如图片AI,纹理旋转,抖动,甩动的过程中容易丢失细节。
2.帧率兼容性不好,航海家号24fps帧率容易导致部分场景错误分割,多个序列之间出现清晰度变化。
3.对灰度值修复效果不好,片源如果纯黑场景有噪点,会让AI输出闪烁的斑片。
我相信这些经过时间和软件作者的努力是可以克服的,只要DVD原盘的信息还在,总有一天我们能恢复出该有的细节。
那么视频超分应该怎么工作呢?
(续)
众所周知,一个系列的蓝光重制,在商业上是根本不回本的。作为星际迷航的粉丝,我们必须不能幻想Paramount给航海家号和DS9做重制,要重视自己和互联网网友的智慧。因此AI修复可以说是绕不开的话题。
什么是深度学习修复?
深度学习算法是一种信息恢复的技术。简单的说,AI经过喂数据训练,能够总结出视频和图片质量劣化的规律,掌握规律以后就能从压缩和破坏的信息中重建出原有信息。
以视频为例,视频可以看作由多个图片构成的队列。因此视频固然适用于图片AI。
但是视频和静态图片存在显著区别,视频一秒由24帧相关的画面构成。以电视剧举例,ST电视剧往往采用固定镜头或者缓慢的缩放镜头,这些镜头持续2-5秒,因此时间尺度上具有更多相似性。不久之前,诞生了一类视频AI,它们能对时间尺度上的信息进行整合,并且对空间细节进行更好的恢复。但是原理呢?
为什么时间尺度的信息那么神奇?可以想象一下有20x20像素的画布,里面包含10条0.5像素宽的竖线,对于真实场景,这些细线的运动颗粒度远超过20像素表达的分辨率,假如它们以0.05像素/帧去运动,经过24帧运动了1.2像素,像素是不能分割的,因此你其实看不到细线在动,只能看见10个黑点在1个像素空间内反复抖动。假如经过72帧,你能看见10黑点整体运动了4个像素位置。但是因为抖动仍然看不出这是一条线。
但是这些像素点的运动,是无规律的吗?明显不是,它其实代表了一个真实细节在该分辨率下的劣化特征。可以认为特定的细节在此画布上会以某种“规律”降级成前面描述的抖动和混叠。这是视频蕴含的一种特殊信息。图片区别在于,图片不动,自然没有抖动。
前面所述“视频AI”经过训练,对时间上出现的混叠信息进行分析处理,一旦它学到了时间上细节降级的方式,反过来它就能重建出高质量的细节信息。也就是80x80的画布上2像素宽的10根竖线。
相比于图片AI,它的优势主要有
1.极高质量的重建。显存足够的情况下,以28帧为一个序列就可以重建出3倍分辨率的画面细节。理论上,80帧尺度的序列效果更好,其实变化后的画面更难
2.时间上的稳定性。在同一个序列内,重建出的画面具有抗突变能力。细小的纹理比较稳定。这个特性有利于视觉上的流畅。
3.足够柔和自然。在相似的锐度下,视频AI有效细节更多。因此它不需要太高的锐度。对比之下图片专用AI在锐化的过程中细节不能持续的增加,图片锐度增长的同时,细节有损耗。(静态信息不能凭空变出来)
但是,为什么是视频AI?
事物有好的地方,必然有折中和遗憾的地方。视频AI缺点呢也存在,为什么非要用视频而不是图片呢?
根据第一性原则,大家费尽心力研究AI不就是为了清晰度。所以现有的技术里,清晰度最高,最先进的是视频AI模型。这是技术路线上的底气。
相信各位再次观看航海家号的时候,是希望得到更高质量和新鲜的体验。那么与其退步使用一下效果普通的图片超分算法,直接用最高质量的视频算法更有价值。
其次视频AI算法的短板,是可以克服的。例如通过减轻动态模糊和增强纹理细节,我找到比较合适的修复参数。
另外如果不让更多人知道视频多帧超分,这个技术在互联网就不能发光发热,转向到更新的技术路线是对To boldly go where no one has gone before的致敬,也会唤起更多人后续的工作。
视频AI的挑战:
1.剧烈运动画面的兼容性差,模型对场景变化的容忍度不如图片AI,纹理旋转,抖动,甩动的过程中容易丢失细节。
2.帧率兼容性不好,航海家号24fps帧率容易导致部分场景错误分割,多个序列之间出现清晰度变化。
3.对灰度值修复效果不好,片源如果纯黑场景有噪点,会让AI输出闪烁的斑片。
我相信这些经过时间和软件作者的努力是可以克服的,只要DVD原盘的信息还在,总有一天我们能恢复出该有的细节。
那么视频超分应该怎么工作呢?
(续)