玄学扫盲:音质的科学
此文为科普向,为了便于理解,减少专业词汇的引入,会尽可能选取比较通俗、简单的说法,但可能因此导致部分用词不是完全准确。个人也可能有一些错误,欢迎指正。
首先要区分音质和音效。对于播放设备和发声单元来说,好音质应当是不论记录下的声音是否好听,都要准确地还原音频文件中记录的声音。对于录音设备则是精确地将被记录的声音转换为音频文件。这是两个独立的部分,互相之间无法影响。音效则是通过软件或者硬件上的调节让我们从耳机中听到的声音变得好听,这也是我认为音频成为玄学的原因,因为每个人喜欢的音效是不一样的。举例来说,“胆机”的声音很好听,但它的好听的原因是电子管放大器在运作过程中对音频产生的一种特殊的失真,就音质来说“胆机”是存在缺陷的,但音效上很不错。
接下来谈谈声音是如何被记录的。科学告诉我们,声音本身是空气的振动,如果我们把它图像化的话就会得到一条连续的曲线。记录声音其实就是记录这条曲线,最早的声音记录设备——留声机,就是直接在物体上把这条曲线刻成一道高低变化的凹痕。而在计算机记录音频时,首先通过麦克风把空气的振动转化为电流的变化,电流的变化依旧是一条曲线。但要存储到计算机的存储器上时会面临一个问题,计算机只认0和1,不认曲线,那么就要想办法把这条曲线变成0和1。这里就要提到脉冲编码调制(PCM),这是目前几乎所有计算机音频编码的基础,几乎所有常用格式的音频,实质上都是经过改造、压缩、包装的PCM数据流,在播放音频时,也会解码成PCM的数据流后再交给声卡去还原成电流信号。下面就讲讲PCM的原理。
第一步是取样
在表示电压变化的曲线上均匀地取样,更准确地说是隔一个固定的时间记录一次电压的大小,音频的采样率就是指每秒钟取样的次数,CD音频的采样率是44.1kHz,也就是每秒记录44100次。至于为什么是这个数字,就要提到香农-奈奎斯特采样定理,根据这一定理,要不失真地记录一定频率以内的信号,采样率必须大于最高频率的两倍。科学告诉我们,人耳能听出的声音最高频率是20kHz,考虑部分人能听得更高和方便音频处理,CD的音频采样率就被定在44.1kHz,DVD的采样率则是48kHz。实际生活中还存在低采样率的应用,比如我们电话通话时的音频采样率只有8kHz或者16kHz而已,因为这已经覆盖了人说话声音的频率,可以满足人们通话的需求了,但大家都会感觉电话里的声音和人直接说话的声音有些不一样。因此,Hi-Res等音乐音频已经开始进一步向上拓展采样率,以提高音质。
音频取样在录音和播放时都会面临一个问题,那就是如何准确地每隔一个固定的时间记录或者提供一次电压。这是一个计时的问题,有经验的人可能会发现,如果一直不调节手表的时间,一年下来,会和准确的时间相差几秒。对于日常生活来说一年差几秒没什么区别,但对每秒记录数万次的音频来说,稍有不精确就会导致声音的变化。目前电路中最常用的计时设备是石英晶体振荡器,简称“晶振”,对特制的石英晶体通上一定范围的电流后,它就会以一个特定的频率振动,而这一振动又会引发电压的变化,设备依据这一电压的变化进行计时。晶振本身的会有一定的误差,同时,这也是电对产生音频影响的地方之一,不稳定的电流会影响晶振的工作。晶振在电子设备中的应用非常广泛,对我们常用的电脑、手机来说,通常会有多个模块共用一个晶振。而独立声卡等音频设备会配备专门用于音频的高精度晶振,甚至配备两个晶振以应对44.1kHz和48kHz两个不成倍数关系的采样率,而更高采样率的音频使用44.1或者48的倍数的采样率的原因之一就是可以共用晶振。除了晶振之外,还有另一种更高精度计时设备——原子钟,在一些高端音频设备中,铷原子钟已经得到了应用。
高采样率的音频还会记录下乐器演奏过程中产生的超声波,至于人能不能感觉到这些超声波,从而提升听感,那我觉得已经进入玄学范畴了,我不做评论。当然前提是你的耳机能还原这些超声波,这一点可以看耳机的频率响应,顺便一提Hi-Res认证对耳机的要求就是频率响应上限不低于40kHz。
192kHz的音频可以记录96kHz以内的声波(许多高解析音频是专业音频处理公司从CD级别的音频处理出来的,效果上就见仁见智了)
第二步是量化
接下来还要对取到的样本进行量化,直接记录电流值的话,虽然每个样本的数据量不大,但每秒有44100个样本的话,还是得想办法节约空间。方式就是把取到的电流值用一个计算机可以存储的二进制数来表示,那么问题就是用多少位的二进制数来表示一个样本,这就是音频的采样精度(又译采样深度、采样位宽),CD音频的采样精度是16bit,也就是用16位的二进制数来表示每一个样本,那么就可以表示2的16次方,也就是65536种不同的样本,而24bit采样精度则能表示16777216种不同的样本。由于能表示的样本的种类是有限,因此只能把取到的样本记录成能表示的样本中与之最接近的,这一过程明显会导致的音质损失,这就是所谓的量化噪音,采样精度的提升可以降低这种噪音。
最后把所有的数据连续排在一起,就形成了PCM数据流,这也是为何未经压缩的音频每秒的数据量,也就是常说的码率,是采样率、采样精度、声道数之积。
可以画张图来直观地表示这个过程,红色为被记录的点。
依靠图片我们也可以很直观地了解,采样率和采样精度的提升可以使被记录的数据更接近原来的曲线,这也是为何Hi-Res音频的音质比CD高,这是科学,不是玄学。但无论如何,PCM记录下的音频都是一串不连续的变化的点,这也就是所谓的数码感产生的原因。
PCM数据流在经过各种不同的、有损或者无损的处理与压缩,并进行包装后,就变成了不同格式的音频文件了。
音频如何被还原
首先是将被压缩过的音频文件通过CPU解码成PCM数据流。对于电脑来说,同时有多个软件在运作,都可能要求发出某些声音。而且这些声音可能会使用不同的采样率和采样精度,这就会产生混乱,因此,现在操作系统会统一管理音频,软件将声音交给操作系统的音频接口,由操作系统将各软件提供的声音混合后统一采样率和采用精度,形成新的PCM数据流再交给声卡进行处理,这一过程中,非整数倍的采样率转换和高采样率转至低采样率都会导致音质的损失。如果要欣赏音乐的话,请选择成音乐音频的采样率,以避免采样率转换造成的音质损失。对于音质要求更高的人,Windows7开始微软引入了Wasapi,支持的软件可以使用独占模式来直接向声卡提供PCM,彻底避免操作系统处理造成的音质损失。
▲默认格式就是系统混合后的PCM的采样率与位宽
PCM数据流被交给声卡后,会使用数字模拟转换器(Digital to analog converter,以下简称DAC)将其转换成模拟信号,这部分通常也被称为解码器,基本就是录音过程中量化和取样反过来进行,不再重复说明。然后经过放大器(Amplifier)提高电流(就当是提高音量好了),对于高阻抗耳机,放大器功率不足会导致音频开到最大,声音还是轻。优(geng)秀(gui)的DAC和放大器能以更高的精度去还原音频信号。在这一过程中,给DAC和放大器供电的电流如果存在不稳定或者不足的话,会影响其工作,导致转换、放大的精度受到影响,而越好的DAC和放大器通常对电的要求也越高,加上之前提到的晶振,导致音频发烧友十分关注音频设备的供电部分,最终产生了许多音质和电的段子。
线材
除了电的段子,关于音频线材的段子也是很多。金属线是最常见的音频信号传输媒介,线材的好坏很简单,进入的电信号和出来的电信号要越接近越好。进出信号的差别通常源自源自于线材本身的电阻和外部的干扰。因此减少信号损失的方式是使用低电阻的金属材料、应用能减少干扰的线路设计、避免线材通过有电磁干扰的区域以及减少线材长度等。目前最常见的线材材料是铜,但铜的纯度、生产工艺、粗细等使铜线的质量差别很大。而银的电阻虽然低于铜,但其价格和加工难度使其不能普及。 因此就产生了镀银铜线这样的存在。
对于数字信号,其天生的抗干扰能力让其对信号质量的要求没那么高,因此在DAC之前信号本身不会受什么影响,但携带信号的电流本身受影响产生的变化还是有可能影响DAC的运作,因此产生了音频光纤。在DAC之后一直到发声单元,音频为模拟信号,这一段就没法用光纤了只能使用高质量(gui)的金属线,但对大多数用户来说,只要线材的质量不要太烂或者进入强电磁干扰的区域,外部干扰通常不会产生能够感觉到的影响。
还有一种思路就是把DAC等元件在发声单元附近,极限地减少模拟信号的传输距离来减少音质损失,但对耳机等小尺寸发生单元来说、这样也会导致空间不足而无法布置高质量的dac与放大器。
另一种的记录方式
除了高于CD采样率和采样精度的PCM音频外,还有一种音频也被索尼归为Hi-Res音频。这种音频的编码模式被称为直接比特流数字编码(Direct Stream Digital,简称DSD),其记录模式与PCM完全不同。首先其采样率极高,即使最低的DSD64也有2.8224Mhz,是CD的64倍,其次,其采样精度只有1bit,也就是每个采样点不是1就是0。记录原理大致是将每个样本与上一个样本比较,电压高于上一个样本就计1,低于上一个样本或者不变就计0,当然实际的比较方式要更为复杂。因为正常的音乐音频都是连续变化的曲线,只要采样率够高,就能在音频文件体积得到控制的情况下比PCM更准确地记录声音,并减少低采样率导致的数码感。
虽然DSD很优秀,但只有高端(gui)的DAC才能直接接受DSD数据流并将其还原,当然现在也有软件可以将DSD实时转换成PCM来播放,不过这样就丧失DSD本身的特色了。
Vivo Xplay6的DSD模式
https://www.ithome.com/html/discovery/318545.htm向玄学低头