转自怡生飞扬科技发展有限公司

— "越多越好"的局限性。只要增加数字音频系统中的量化比特数量,就一定会使得声音质量有所提高吗?答案是,"会有一点提高",这是因为主要的问题出在模拟信号到数字信号的转换阶段。在实际工作中,转换器不可能完全达到理论上所得到的精度。例如,16-bit的转换器在理论上可以得到96 dB的动态范围,但是由于设备自身不可避免要存在一定的噪声,这将使得动态范围损失3到6 dB,于是就等于对于小音量信号的分辨精度下降了1-bit。这样一来,我们就只剩下15-bit了。
如果你的音乐的平均电平值为84 dB,同时声音音量电平也有达到96 dB的情况,那么你就不能随意调高设备的输入电平,而实际上你的音乐无形中就丢失了2-bit的量化精度。(另外,你可能还有许多以低bit数进行量化的现场录音音轨,通过前面的论述我们已经非常清楚它们的弱点了。)这些号称是"16-bit"的数字音频设备实际上只能为你提供13-bit的量化精度。
如果真想在模/数转换器的输出端得到16-bit精度的信号,那么你至少应该以18-bit来进行采样。那么,你说我们究竟应该叫它是16-bit的转换器还是18-bit的转换器?当然,是那些生产这些产品的人为它们定义了名字(市场再一次打败了技术!)。同样,为了得到20-bit的精度,你必须以22-bit的精度来进行采样,而要想实现真正24-bit的精度,采样时的量化精度必须达到26甚至是28-bit。
到底是什么在限制着这些bit?模拟电路的质量是决定这个问题的关键所在。你的模/数转换器被它的输入端所输入的模拟信号(线路信号或是麦克风信号)所限制。如果你有一台本底噪声为-96 dB的20-bit数/模转换器,那么在理论上它可以实现120 dB的动态范围,但是实际上呢,由于转换设备本身具有4-bit即24 dB的噪声电平,使得动态范围简直都要被噪声"吃"光了。
如果你非常注重转换器的各项技术指标,那么就会发现即使是那些价格最昂贵的器材,采用20-bit和24-bit的转换器时其噪声电平的水平都差不多(分别为-117 dB和-120 dB)。 这主要是由于设备中模拟电路部分的热噪声降低了整体的指标。如果深入一些来研究,任何电子元件(例如电容、电阻等),即使是在没有任何信号经过它们的时候,其自身都会产生一些微弱的噪声。当这些电子元件被组合起来接入到实际电路(比如一台模/数转换器)中后,整体的噪声水平就会达到几个dB的程度,从而影响到电路的噪声水平。
要想解决这个问题,最有效的办法就是去买一套液氮冷却系统,把你的所有设备全部冷却起来。简单吧?呵呵。除非模拟电路技术出现了什么新的发展,否则无论你的设备采用的是多少bit,你都别指望这些模/数转换器的实际输出精度可以达到20-bit以上,其原因就是各个电子元件所产生的噪声电平。那看来这是没希望了,先等一下,在你下最终的结论之前,还是有让你得到并存储精度超过20-bit数据的办法的。
首先,目前所有的音频设备在低电平范围内是可以达到一定的精度的。它能够将一些声音的变化转化为平滑的本底噪声,而不让其以容易听到的量化误差出现。
另外,在我们前面的讨论中得知,任何的数字信号处理器在工作时都会产生出一个小数点后面位数很多的数,最终的数据结果将从这个数据中产生。我们舍入的位数越少,则最后的结果精度就越高。如果我们向存储设备中写入了更多的bit,那么量化误差的影响就会更小,因为它的影响是动态范围的最底端。当音频设备系统中采用了24-bit或是更高的处理精度,并且采用24-bit的精度向磁盘中写入数据,那么这些误差就会在-144 dB左右。由于我们已经确定了-120 dB为我们希望的噪声电平值,那么上面所得到的量化误差实际上比我们预想的要低24 dB。对于大多数人说,这种噪声水平已经超过了他们的听力范围,另外这种噪声水平也超过了目前的功放和音箱系统的水平。
第三点,计算机和外围设备都是以字节(byte,请参阅附录中《比特、字节、字和采样》一文中的介绍。)为单位。1个字节等于8个比特。因此存储一个24-bit的数据要使用到3个字节。存储一个20-bit的数据要使用到2.5个字节。但是非常遗憾,计算机系统是不能写半个字节的。于是这就有两种选择:将字节中没有用到的bit用0来填充,或是将下一个数据最开始的4个bit放在这些空余的地方。
当然,如果你这样做了,那么当进行声音数据的回放、处理等操作时,将占用较多的处理时间。对于我们大多数的人来说,音频处理对计算机的要求低将是一件非常好的事情。因此,将20-bit的数据以24-bit来存储,忽略掉其中的4个bit,这样做虽然会浪费一些磁盘空间,但是却可以让我们的处理效率更高。
— 有关频率的问题。最后,我们要来讨论高精度数字音频中最容易出现混淆的一个地方:采样率加倍。为了解释清楚这些问题我们还是要先来温习一下数字音频技术的基本知识。为了能够正确地表达一个已知频率的声波,我们至少应该采用两倍于该频率的采样率来进行采样。如果我们设定的采样率为每秒钟44,100次,那么我们将可以精确地确定出任何一个22.05 kHz信号上的两个点。
如果进入到模/数转换器的信号包含有高于奈奎斯特频率(奈奎斯特频率等于采样频率的一半)的信息,那么转换器就无法在一个周期内对波形进行两次采样。当这个采样波形信号数据被数/摸转换器重放时,它的频率就会出现问题。实际上,其结果是这些不正确的频率信号将会造成混叠现象。
举例来说:我们使用44.1 kHz的采样率,那么此时奈奎斯特频率就为22.05 kHz。如果一个频率为30 kHz的声音信号进入到模/数转换器中,则转换器就没有足够的精度来对这个信号进行精确采样,于是就会出现失真现象。由于进入系统的声波信号比奈奎斯特频率高7.95 kHz,那么声波中出现信号失真的位置就应该是比奈奎斯特频率低7.95 kHz的频率,也就是在14.1 kHz频率处(参见图1)。

这种现象就叫做混叠(aliasing),尽管这是一种很不受人欢迎的现象,但是在许多合成器的音色中,都存在这种问题,特别是在Sequential Circuits Prophet-VS中。依照业界中的传说,VS的工程师们将设备中的抗混滤波器(anti-aliasing filter,即防止发生混叠现象的滤波器)省去了,原因是他们认为这样声音更好听。
由于我们在数字音频领域都极力避免混叠现象的发生,一般都在模/数转换器的前面安装有滤波器(可能是安装在模拟电路部分中,如果是过采样转换器,则安装在数字电路部分)。这种滤波器的上升沿非常陡峭,它从20 kHz频率处开始对声音信号进行限制,到奈奎斯特频率处时将电平降为0。这样进行滚降的道理是,我们是采用44.1 kHz的采样率来工作,而不是使用40 kHz 的采样频率,这样得到的带宽为20 kHz。
如果说44.1 kHz的采样率可以给我们20 kHz的音频带宽,那么我们为什么不在每秒钟内多进行几次采样操作呢?Z-System的Glenn Zelniker博士,一名卓越的数字音频处理和线路设备设计师是这样来看待这个问题的:“较高的采样率可以解决当前数字音频领域中空间定位和立体声声场方面的问题。”
对于目前所使用的44.1 kHz的采样率,主要有两个问题。第一个就是上面已经讨论过的输入线路滤波器。尽管对于稳态信号来说,这些滤波器是非常精确的,但是真正的音乐几乎不会是简单的正弦波。音频信号无时无刻不在变化着,音量、音色和基本的波形包络都会随着时间轴发生改变。
通常的这些滤波器对于简单的正弦波来说还是比较有效的,但是一遇到实际的音乐这种波形复杂的场合,就会显得力不从心了。它们会在通过其的信号中加入纹波信号和尖峰信号,这主要是因为滤波器的斜率过于陡峭了(参见图2)。
图2:中三种颜色的线代表了不同类型滤波器的截止斜率。较低的三条线(图中央的那三个尖)代表了滤波器对于瞬态信号的响应情况。随着滤波器截止斜率变缓(对应着数字音频系统中采样频率的提升),系统的瞬态响应变得更好。
此时我们会感觉声音中有人工加工过的痕迹,还会在声音中听到有不自然的振铃声。如果采用两倍的采样频率,我们就可以让滤波器下降的斜坡延长一倍,使得其对信号的加工更加"温和",同时也得到了更高的奈奎斯特频率。此时的主要收获并不在于这些额外增加的频率范围,当然我们的确也从中得到了一些好处。事实上关键在于,采用较高的采样频率,会使得我们在通过滤波避免信号产生混叠现象时,不给音频信号带来更多的失真。
另外一个有意义的结果就是声像定位。我们确定持续音音源的位置是通过两耳接收到不同的声音音量来实现的。使用两只扬声器可以很容易地达到这种要求。而在确定瞬时声音音源的位置时,则是通过当声音到达我们的每一只耳朵的延迟音来实现的(瞬时音由于存在时间很短,不足以让双耳辨认各自所接收到的音量的不同)。因此由两只音箱发出的瞬时声音将会同时达到双耳,从而导致音源位于两只音箱中央的感觉。
心理声学中有一条概念叫做"刚刚可以察觉到的区别"。这是我们所能够察觉到的最微小的音色变化,它的量级大约为6微秒。(在技术领域,这种现象被称为Haas effect,即哈斯效应,而量级大致为3到10毫秒,注意这里的单位是毫秒,而刚才使用的单位是微秒,我们可以通过它来改变立体声声场的范围。)当我们提高两路信号之间的延时时间时,我们将可以对声音在立体声声场中的位置进行控制。为了可以精确地定位一个瞬时信号源,例如一个鼓的声音或是钢琴音头的声音,我们需要对音色进行非常精确地控制。
但是非常遗憾,在每秒钟进行44,100次采样的情况下,采样与采样之间的时间是上面所说的"刚刚可以察觉到的区别"时间的4倍。这将导致时间上的拖拍和定位上的失误。这也是你经常会听到人们抱怨说数字音频系统在结像力方面不如模拟设备的一个原因,而就目前所采用的采样率来说,要想改变这种现状是不可能的。将现有的采样频率加倍对于解决这一问题将会大有帮助。当然,将采样率提到到原来的4倍将会带来更佳的效果!
采用较高的采样频率还会带来其他的好处,例如在进行抖动处理时可以得到更好的效果。这时我们在人耳的可闻频率上方增加的频率范围可以用来作为抖动噪声,即我们可以将这些随机噪声全部安排到人耳的可闻范围以外去,这的确是非常有效的。
正如你所见到的,对于提高数字音频系统的精度,我们需要考虑的方面实在是太多了。例如,以88.2 kHz/24-bit的精度来存储立体声数据大约每分钟需要32 MB的磁盘空间,这是目前所采用的44.1 kHz/16-bit精度数据所需容量的3倍。目前我们还是在使用以前的旧标准,但是还要在尽可能地提高声音质量方面下工夫。当然,这也可能只是通往未来的音频数据格式的桥梁而已,但是如果我们不去在这方面进行努力,那么谁还会去做?
音频工程师George Massenburg将其总结出来"让我们用自己的真诚与热情来创造未来。"这句话不但适合于我们的人生,同样也适合于音频技术。
— 附文1:数字音频常见名词解释
带宽(bandwidth):指频率带的范围。通常,人类听觉的带宽为20到20,000 Hz。
动态范围(dynamic range):指音频系统所能够提供的音量最大的声音与音量最小的声音之间的差额。
信噪比(signal-to-noise,S/N):指通常的工作电平或是名义上的工作电平与噪声电平之比。
振幅(amplitude):这个参数代表声音的音量或是音量电平。
量化精度(resolution):数字音频系统在进行量化时所使用的bit数目。
量化误差(quantization error):当数字音频系统中所采用的量化bit数目过少,造成系统无法正确地还原出原始音频信号时,就出现了这种量化误差。
抖动处理(dithering):当遇到音量电平较低且变化较平滑的声音时,使用较高的bit数来进行量化,而在其他情况下则使用较少的bit数来量化的处理方式。
最不重要的位(Least Significant Bits,LSBS):即该位的0、1状态对于系统影响最小的那个位,在量化过程中一般是最低位。
处理深度(processing depth):它表明当使用音乐设备上的数字信号处理器对声音信号进行处理时所能达到的精度。
混叠(aliasing):由于采样频率过低,造成声波在频率域中发生失真的现象。
抗混滤波器(anti-aliasing filter):即防止发生混叠现象的滤波器。
— 附文2:比特、字节、字和采样
在过去的这些年中,我们的数字音频工业从计算机方面"盗取"了不少名词。下面我们要来简单解释一下这些名词。
Bit是英文Binary digit的简称,意思是二进制数字,音译成中文就叫做"比特"(在本文中我们使用其英文缩写bit)。一个bit只有0和1这两个值,非常简单。当8个bit结合到一起,就成为了一个Byte(字节)。在计算机领域,两个字节(也就是16个bit)结合到一起就构成了一个word(字)。
数字音频领域中所说的sample(采样)是指对音量的度量,它并不代表特定的bit数目。但是非常让人晕头转向的是,录音工业中也在使用word这个词,并且用它来代表任何精度的采样,根本不去考虑到底使用的是多少bit。因此,你经常会看到英文资料上写着"8-bit word"或是"20-bit word"的字样,这时你要清楚这个word不是计算机中所说的word,它代表的是数字音频的量化精度。
— 附文3:DVD
在国外,有的人说DVD是Digital Video Disc(数字视盘)的简称,还有一些人说DVD是Digital Versatile Disc(数字多用盘)的简称,还有……,别管是什么的简称吧,反正在国内大家都管它叫DVD,它是当今面向音频和视频的新型存储媒质。
如果你对数据存储技术不甚了解,那么可以这样来认识DVD:它是一种光盘,大小与普通的音乐CD唱片相同(直径都是120mm),它可以存储大量的数据。这种光盘每一面可以有一到两层,而每一张光盘既可以是单面的,也可以是双面的。DVD中每一层可以存储4.7GB的数据(就是4,700MB,而我们一般使用的CD只能存储650MB的数据),如果是一张双面、双层的DVD盘,总共可以存储超过17GB的数据。实际上,仅仅是一张单面、单层的DVD盘,就可以容纳下一部高清晰度的电影。
DVD的标准被定义在许多本"书"(规范)中,这些规范决定了DVD的结构、数据格式和容量等。DVD大家族中共包括DVD ROM,DVD Video,DVD RAM,DVD Audio,其中DVD Audio标准在本文完成时还没有最终定下来。
当然,我们所关心的还是DVD Video和Audio的格式。视频(Video)格式的DVD可以回放24-bit/96 kHz的立体声音频信号(在某些情况下,可以达到4个声道)或是真正的6声道环绕混音(即杜比5.1声道),这时采用的是Dolby Digital(即常说的杜比AC-3)的16-bit/48 kHz格式。如果现在所推荐的标准到时可以顺利通过,那么声音的采样频率将从目前的44.1 kHz提高到192 kHz。DVD Audio将允许7种环绕声格式和采样频率,但是不支持Dolby Digital这样的压缩音频格式。另外还有人提议支持Sony公司的Direct Stream Digital格式,这是一种采样频率采用超过2.4 mHz的1-bit处理方式。
DVD对于那些想感受高精度音频人们的具有很大的吸引力。当然,要想真正让消费者感到兴奋,还需要这种高精度音频的确与众不同,并且支持真正的环绕声。同时,当广大消费者开始接受这种产品时,也为音乐人和音频工程师们制作这种高精度声音和环绕声节目带来了更多的机会。
但是现在还有一团乌云笼罩在天空:由于DVD Audio实际上与DVD Video不同,因此一些早期应用于DVD上的技术无法满足回放DVD Audio的需要,也就是说有的消费者会发现他的DVD机播放不了DVD Audio光盘。于是,当有些hi-fi器材厂商声称自己的产品可以读取两种格式的光盘的同时,使用者却发现自己不得不再去买第二部DVD机。
— 附文4:过采样转换器
当你浏览转换器的说明书或是宣传资料时,经常会看到许多厂家的产品都提到了过采样(oversampling),例如"128倍过采样"等。过采样是一种用来提高有效采样频率的处理技术,它是通过在真实的采样点之间增加内插值(一种数学算法)数据来实现的。如果你有一台采样频率为48 kHz的64倍过采样转换器,那么你实际得到的采样频率就是3.072 mHz。由于这些内插值采样数据是在采样操作结束之后才加入的,因此它并没有真正提升音频信号的精度和频率范围。
然而,使用了64倍的过采样技术后,可以使得滤波器的截止斜率变缓,这是因为此时的奈奎斯特频率将达到1.536 MHz,这是20 kHz的6个倍频程。随后,经过模/数转换器的处理,可以将采样频率降回48 kHz,然后存储到硬盘或是磁带上。实际上,上面的这一系列操作从半导体芯片和数学算法的角度上考虑还是相当复杂的,但是其最终结果基本上就像我们上面所讲述的一样。
在使用过采样技术时,数/模转换器所做的事情与模/数转换器大体相同,只不过是反过来而已。设备将48 kHz的数字信号中加入新的内插值数据,使得最终的采样频率更高。数模转换器将一节一节的数字信号转换为模拟的声波波形。波形中的尖点和凹陷都是20 kHz以上的成分。
尽管人耳无法察觉到如此高频的声波,但是这些尖点和凹陷的存在却会导致在可闻频带内声波的失真。因此,我们需要使用一个数字重建滤波器来去除这些高频的成分。当使用过采样技术时,这些滤波器的截止斜率可以做得非常平缓,使得滤波器对音频信号的损害大大减小。