音频基本知识第一部分模拟声音-数字声音原理

音频基本知识
第一部分
第二部分
第三部分
第四部分
第五部分
第六部分
模拟声音-数字声音原理
音频压缩编码
和弦铃声格式
单声道、立体声和环绕声
3D环绕声技术
数字音频格式和数字音频接口
第一部分
模拟声音-数字声音原理
一、模拟声音数字化原理
声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，
音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模
拟信号。
图1
模拟声音数字化的过程
声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散
化通过采样来实现。
声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(fs)
是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。
¾ 采样频率
采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决
定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字
表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽
取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有 2 个点的采样，
人耳能够感觉到的最高频率为 20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行 40k
次采样，用 40kHz 表达，这个 40kHz 就是采样率。我们常见的 CD，采样率为 44.1kHz。电话
话音的信号频率约为 3.4 kHz，采样频率就选为 8 kHz。
¾ 量化精度
光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的
等级数越多。例如，每个声音样本用 3bit 表示，测得的声音样本值是在 0～8 的范围里。我
们常见的 CD 位 16bit 的采样精度，即音量等级有 2 的 16 次方个。样本位数的大小影响到声
音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。
¾ 压缩编码
经过采样、量化得到的 PCM 数据就是数字音频信号了，可直接在计算机中传输和存储。
但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压
缩算法，将 PCM 转换为 MP3,AAC,WMA 等格式。
常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可
变速率编码，AMR、ADPCM、G.723.1、G.729 等。常见的用于音频(Audio)的编码有：MP3、
AAC、AAC+、WMA 等
二、问题
1、为什么要使用音频压缩技术？
我们可以拿一个未压缩的 CD 文件(PCM 音频流)和一个 MP3 文件作一下对比：
PCM 音频：一个采样率为 44.1KHz，采样大小为 16bit，双声道的 PCM 编码 CD 文件，它的数
据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以 8 bit,
就可以得到这个 CD 的数据速率，即 176.4KB/s。这表示存储一秒钟 PCM 编码的音频信号，
需要 176.4KB 的空间。
MP3 音频：将这个 WAV 文件压缩成普通的 MP3，44.1KHz，128Kbps 的码率，它的数据速率为
128Kbps/8=16KB/s。如下表所示：
比特率
存 1 秒音频数据所占空间
CD(线性 PCM)
1411.2 Kbps
176.4KB
MP3
128Kbps
16KB
AAC
96Kbps
12KB
mp3PRO
64Kbps
8KB
表1
相同音质下各种音乐大小对比
2、频率与采样率的关系
采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为
44.1KHz，这意味着什么呢？假设我们有 2 段正弦波信号，分别为 20Hz 和 20KHz，长度均为
一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行 40KHz 的采样，我们
可以得到一个什么样的结果呢？结果是：20Hz 的信号每次振动被采样了 40K/20=2000 次，
而 20K 的信号每次振动只有 2 次采样。显然，在相同的采样率下，记录低频的信息远比高频
的详细。这也是为什么有些音响发烧友指责 CD 有数码声不够真实的原因，CD 的 44.1KHz 采
样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是
有些朋友在捕捉 CD 音轨的时候使用 48KHz 的采样率，这是不可取的！这其实对音质没有任
何好处，对抓轨软件来说，保持和 CD 提供的 44.1KHz 一样的采样率才是最佳音质的保证之
一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是
数字的，请不要去尝试提高采样率。
3、流特征
随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一
边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收
听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数
字广播电台成为了现实。
第二部分
音频压缩编码
一．有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式
未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的 PCM
或 WAV 音轨。
无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频
一般不使用于影音世界，但是存在的格式有无损 WMA 或 Matroska 里的 FLAC。
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文
件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件，包括 AC3, DTS, AAC,
MPEG-1/2/3, Vorbis, 和 Real Audio.
我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式（例如 wav
转 MP3），质量上有损失，那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩
音频格式（例如 Mp3 转 AAC）更槽糕，因为它不仅会引入原文件存在的损失，而且第 2 次编
码也会有损失。
二、语音(Voice)编码和音频(Audio)编码
语音编码主要是针对语音通信系统中的编码方案，应用在有线或无线通信中；音频编码
是针对音乐的编码方案，主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差
别一方面是频带不同，另一方面是压缩要求不一样，音乐要求具有高保真度和立体感等要求。
音频编码最常见的是 MPEG 的音频编码。
语音的编码技术通常分为三类：波形编码、参量编码和混合编码。其中，波形编码和参
量编码是两种基本类型。
波形编码是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的
波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样
本分层量化，并用代码表示。解码是其反过程，将收到的数字序列经过解码和滤波恢复成模
拟信号。它具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求
不太严格的通信中得到应用，而对频率资源相对紧张的移动通信来说，这种编码方式显然不
合适。
脉冲编码调制（PCM）和增量调制（△M），以及它们的各种改进型自适应增量调制（ADM）
，
自适应差分编码（ADPCM）等，都属于波形编码技术。它们分别在 64 以及 16Kbit/s 的速率
上，能给出高的编码质量，当速率进一步下降时，其性能会下降较快。
参量编码又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参量，并
将其变换成数字代码进行传输。具体说，参量编码是通过对语音信号特征参数的提取和编码，
力图使重建语音信号具有尽可能高的可靠性，即保持原语音的语意，但重建信号的波形同原
语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码，比特率可压
缩到 2Kbit/s-4.8Kbit/s ，甚至更低，但语音质量只能达到中等，特别是自然度较低，连
熟人都不一定能听出讲话人是谁。线性预测编码（LPC ）及其它各种改进型都属于参量编码。
混合编码将波形编码和参量编码组合起来，克服了原有波形编码和参量编码的弱点，结
合各自的长处，力图保持波形编码的高质量和参量编码的低速率，在 4-16Kbit/s 速率上能
够得到高质量的合成语音。多脉冲激励线性预测编码（MPLPC ），规划脉冲激励线性预测编
码（KPELPC）
，码本激励线性预测编码（CELP）等都是属于混合编码技术。很显然，混合编
码是适合于数字移动通信的语音编码技术。
三、无线通信中常见语音编码
PHS为32kbit/s的ADPCM编码，GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码，
WCDMA使用的是自适应多速率编码(AMR)，cdma2000使用的是可变速率编码(IS-773，IS-127)。
1、AMR 编码
（介绍它的原因是因为手机中有使用 AMR 铃声）
。在 3G 多媒体通信的发展过程中，音视
频编码有了很大的发展。1999 年初,3GPP 采纳了由爱立信、诺基亚、西门子提出的自适应多
速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR 声码器采用代数码本激励
线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR 标准针对不
同的应用，分别提出了 AMR－NB，AMR-WB 和 AMR-WB+三种不同的协议。AMR-NB 应用于窄带，
而 AMR-WB 和 AMR-WB+则应用于宽带通信中。
对于手机铃声，AMR－NB 对应的铃声文件扩展名是.amr，AMR-WB 对应铃声文件扩展名
是.awb。它们不是音乐，而是录音得到的原声。
2、ADPCM 编码
自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM 根据
信号的过去样值预测下一个样值，并将预测误差加以量化、编码，而后进行传输，由于预测
误差的幅度变化范围小于原信号的幅度变化范围，因此在相同量化噪声条件下，DPCM 的量
化比特数小于 PCM，从而达到语音压缩编码的目的。ADPCM 与 DPCM 比较，两者主要区别在于
ADPCM 中的量化器和预测器采用了自适应控制。同时，在译码器中多了一个同步编码调整，
其作用是为了在同步级连时不产生误差积累。
20 世纪 80 年代以来，32kb／s 的 ADPCM 技术已日趋成熟，并接近 PCM 的质量，但却节
省一半的信道容量，因而受到重视。1984 年 CCITT 提出 G721 建议,采用动态锁定量化器，
这是一种具有自适应速度控制 32kb／s 的自适应量化器，并将它作为国际标准化的语音编码
方法。1986 年又对 G721 建议进行了修正，称 G726 建议。
ADPCM 不适合作音乐的编码，常用于录音。雅马哈的 MMF 铃声用到 MIDI+PCM/ADPCM 技
术，其中 PCM 和 ADPCM 就是模拟音效，包括人声。
四、各种主流音频编码（或格式）的介绍
1、PCM 编码
PCM（Pulse Code Modulation）,即脉冲编码调制，指模拟音频信号只经过采样、模数
转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM 编码的最大的优点就是音质
好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是 PCM 编码，在
CD、DVD 以及我们常见的 WAV 文件中均有应用。
2、WAVE 格式（铃声）
这是一种古老的音频文件格式，由微软开发。WAV 对音频流的编码没有硬性规定，除了
PCM 之外，还有几乎所有支持 ACM 规范的编码都可以为 WAV 的音频流进行编码。WAV 可以使
用多种音频编码来压缩其音频流，不过我们常见的都是音频流被 PCM 编码处理的 WAV，但这
不表示 WAV 只能使用 PCM 编码，MP3 编码同样也可以运用在 WAV 中，只要安装好了相应的
Decode，就可以欣赏这些 WAV 了。
在 Windows 平台下，基于 PCM 编码的 WAV 是被支持得最好的音频格式，所有音频软件都
能完美支持，由于本身可以达到较高的音质的要求，因此，WAV 也是音乐编辑创作的首选格
式，适合保存音乐素材。因此，基于 PCM 编码的 WAV 被作为了一种中介的格式，常常使用在
其他编码的相互转换之中，例如 MP3 转换成 WMA。
3、 MP3 编码（铃声）
MP3，众所周知也就是 MPEG-1 Layer 3，是一个意图达到高的压缩率同时又能保持相当
不错的音质的有损音频格式。Layer 3 不是 MPEG Layer 1 或 Layer 2 的新版，只是与它们
不同的复杂的编码方案。现在有许多可用的 MP3 编码器，其中最高品质的莫过于 Lame，同
时它也是开源免费的。
MP3 技术上支持多声道（多于 2 个声道），但从未实施过或者今后也不会了。事实上，
你可以编码源文件为 pro logic （II）的多声道文件变换成立体声 MP3。
MP3 有不同的采样率和比特率（注意比特率并不是量化精度，而是代表压缩比），代表
不同的音质。网络上流行的 MP3 是 44.1KHz 采样率，128Kbps 比特率的。下表中列出了不同
品质的 MP3，其中列表示 SR(采样频率)，范围 8KHz~48KHz，行表示 BR（比特率），范围
8Kbps~320Kbps。
MPEG 2.5 Layer 3
BR(kbps)
SR(KHz)
8
16
24
32
40
48
56
64
80
96
112
128
144
160
8
√
√
√
√
√
√
√
√
√
√
√
√
√
√
11.025
√
√
√
√
√
√
√
√
√
√
√
√
√
√
12
√
√
√
√
√
√
√
√
√
√
√
√
√
√
MPEG 2 Layer 3
BR(kbps)
SR(KHz)
8
16
24
32
40
48
56
64
80
96
112
128
144
160
16
√
√
√
√
√
√
√
√
√
√
√
√
√
√
22.05
√
√
√
√
√
√
√
√
√
√
√
√
√
√
24
√
√
√
√
√
√
√
√
√
√
√
√
√
√
MPEG 1 Layer 3
BR(kbps)
SR(KHz)
32
40
48
56
64
80
96
112
128
160
192
224
256
320
32
√
√
√
√
√
√
√
√
√
√
√
√
√
√
44.1
√
√
√
√
√
√
√
√
√
√
√
√
√
√
48
√
√
√
√
√
√
√
√
√
√
√
√
√
√
表二 MP3 对应的不同采样率和比特率
4、OGG 编码（铃声）
网络上出现了一种叫 Ogg Vorbis 的音频编码，号称 MP3 杀手！Ogg Vorbis 究竟什么来
头呢？OGG 是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。
整个 OGG 项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG 的信念就是：
OPEN！FREE！Vorbis 这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花
花公子"人物名。这个词汇成为了 OGG 项目中音频编码的正式命名。目前 Vorbis 已经开发成
功，并且开发出了编码器。
Ogg Vorbis 是高质量的音频编码方案，官方数据显示：Ogg Vorbis 可以在相对较低的
数据速率下实现比 MP3 更好的音质。Ogg Vorbis 这种编码也远比 90 年代开发成功的 MP3 先
进，她可以支持多声道，这意味着什么？这意味着 Ogg Vorbis 在 SACD、DTSCD、DVD AUDIO
抓轨软件的支持下，可以对所有的声道进行编码，而不是 MP3 只能编码 2 个声道。多声道音
乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场
革命性的变化是 MP3 无法适应的。
和 MP3 一样，Ogg Vorbis 是一种灵活开放的音频编码，能够在编码方案已经固定下来
后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和 MP3
相似，Ogg Vorbis 更像一个音频编码框架，可以不断导入新技术逐步完善。和 MP3 一样，
OGG 也支持 VBR(可变比特率)。
5、MPC 编码
MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手，
它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体
积更好的音质！MPC 以前被称作 MP+，很显然，可以看出她针对的竞争对手是谁。但是，只
要用过这种编码的人都会有个深刻的印象，就是她出众的音质。
6、mp3PRO 编码
2001 年 6 月 14 日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会
(Fraunhofer Institute)于 6 月 14 日发布了一种新的音乐格式版本，名称为 mp3PRO，这是
一种基于 mp3 编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资
料显示，mp3PRO 并不是一种全新的格式，完全是基于传统 mp3 编码技术的一种改良，本身
最大的技术亮点就在于 SBR（Spectral Band Replication 频段复制），这是一种新的音频
编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指
定的位率下增加音频的带宽或改善编码效率。SBR 最大的优势就是在低数据速率下实现非常
高效的编码，与传统的编码技术不同的是，SBR 更像是一种后处理技术，因此解码器的算法
的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR 编码的数据
更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇 idi 的工作方式。我们
可以看到，mp3PRO 其实是一种 mp3 信号流和 SBR 信号流的混合数据流编码。有关资料显示，
SBR 技术可以改善低数据流量下的高频音质，改善程度约为 30%，我们不管这个 30%是如何
得来的，但可以事先预知这种改善可以让 64kbps 的 mp3 达到 128kbps 的 mp3 的音质水平
（注：
在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样
的），这和官方声称的 64kbps 的 mp3PRO 可以媲美 128kbps 的 mp3 的宣传基本是吻合的。
7、WMA（铃声）
WMA 就是 Windows Media Audio 编码后的文件格式，由微软开发，WMA 针对的不是单机
市场，而是网络。竞争对手就是网络媒体市场中著名的 Real Networks。微软声称，在只有
64kbps 的码率情况下，WMA 可以达到接近 CD 的音质。和以往的编码不同，WMA 支持防复制
功能，她支持通过 Windows Media Rights Manager 加入保护，可以限制播放时间和播放次
数甚至于播放的机器等等。WMA 支持流技术，即一边读一边播放，因此 WMA 可以很轻松的实
现在线广播，由于是微软的杰作，因此，微软在 Windows 中加入了对 WMA 的支持，WMA 有着
优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。
8、RA
RA 就是 RealAudio 格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的
在线试听都是采用了 RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰
富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅
的前提下尽可能提高音质。RA 可以支持多种音频编码，包括 ATRAC3。和 WMA 一样，RA 不但
都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播
放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，
RA 和 WMA 是目前互联网上，用于在线试听最多的音频媒体格式。
9、APE
APE 是 Monkey's Audio 提供的一种无损压缩格式。Monkey's Audio 提供了 Winamp 的插
件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和 MP3 一样可以播放的
音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少
发烧用户的青睐。在现有不少无损压缩方案种，APE 是一种有着突出性能的格式，令人满意
的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。
10、AMR(铃声)
AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格
式，也就是说我们用手机录音而成的文件就是这种格式的。AMR 格式压缩率较高但是音质相
对较差了一点。优点就是我们可以随心所欲地录制。
11、AAC/AAC+
¾ 什么是 AAC?
AAC 代表 Advanced Audio Coding(高级音频解码)，是一种由 MPEG-4 标准定义的有损音
频压缩格式，由 Fraunhofer 发展，Dolby, Sony 和 AT&T 是主要的贡献者。它被认为是 MP3
的继承者。AAC 能够在一条音轨中包括 48 条全带宽（直到 96khz）音频声道，加上 15 条低
频增强（LFE，限制到 120Hz）声道，直到 15 条数据流并且更多。
其实，AAC 的技术早在 1997 年就成型了，当时被称为 MPEG-2 AAC，但是随着 2000 年
MPEG-4 音频标准的出台，MPEG-2 AAC 被用在这一标准中，同时追加了一些新的编码特性，
所以它就改称为 MPEG-4 AAC。与 MP3 不同，AAC 的技术掌握在多家厂商手中，这使得 AAC
编码器非常多，既有纯商业的编码器，也有完全免费的编码器。纯商业的编码器如
Fraunhofer IIS 的 FhG、杜比公司的 Dolby AAC，免费的有 Free AAC、苹果公司的 iTune，
Nero 也通过它的 Nero 6 提供了 Nero AAC。
AAC 是一种高压缩比的音频压缩算法，它的压缩比可达 20:1，远远超过了 AC-3、MP3
等较老的音频压缩算法。一般认为，AAC 格式在 96Kbps 码率的表现超过了 128Kbps 的 MP3
音频。AAC 另一个引人注目的地方就是它的多声道特性，它支持 1~48 个全音域音轨和 15 个
低频音轨。除此之外，AAC 最高支持 96KHz 的采样率，其解析能力足可以和 DVD-Audio 的 PCM
编码相提并论，因此，它得到了 DVD 论坛的支持，成为了下一代 DVD 的标准音频编码。
AAC 的家族非常庞大，有 9 种规格，可适应不同场合应用的需要。其中 LC 低复杂性规
格去掉了预测和增益控制模块，降低了复杂度，提高编码效率，是目前使用得最多的规格。
目前，苹果、AT&T 和 RealNetworks 已经开始提供收费的 AAC 音乐下载服务。AAC 也得
到了众多硬件厂商的支持，除了苹果的 iPOD 随身听，还有诺基亚的多款手机及松下的部分
随身听产品可支持 AAC 音频的播放。另外，目前已经有部分 MPEG-1/2 解码芯片中加入了 AAC
解码功能，出现支持 AAC 音频播放的 DVD 影碟机肯定是迟早的事情。
¾ 什么是 HE-AAC(也称 AAC+)和 LC-AAC？
AAC 有两种 LC AAC 与 HE AAC，HE AAC 是较新的。LC 意思是"low complexity"(低复杂
性)而 HE 意思是 "high efficiency"(高效性)。
HE-AAC 也称之为 AAC SBR/AAC+/aacplus 等。注意 HE-AAC 注重于低码流的编码并很适
合多声道文件（更小的文件尺寸）。
从学术上讲，HE-AAC 混合了 AAC 与 SBR 技术，处理低比特率能有较好的效果。SBR 代表
的是 Spectral Band Replication(频段复制)。SBR 的关键是在低码流下提供全带宽的编码
而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或
产生令人不快的噪音信号。SBR 解决问题的方法是让核心编码去编码低频信号，而 SBR 解码
器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号（通常码流极低，~2
kbps）。这也是为什么被叫做 Spectral Band Replication 的原因，它只是增加音频的带宽，
而非重建。(类似的技术也用在 mp3 pro 64kbps 能媲美 128kbps 的 mp3 就是这道理)
¾ MP4 与 AAC
MP4 最初是一种音频格式，和 MPEG-4 没有太大的关系，就像 MP3 和 MPEG-3 没有关系一
样。MP3 是 MPEG-1 Audio Layer 3 的缩写；而 MP4 是 MPEG-2 AAC，完完全全是一种音频压
缩格式，增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性，最重要的是，MP4
通过特殊的技术实现数码版权保护，这是 MP3 所无法比拟的。
现在市面上的 MP4 多数偏向于多媒体播放器，能够播放 AAC 的，可以说是凤毛麟角。
甚至有媒体把 MP4 说成是 MPEG4 的缩写，这在以前看来是一个谬论，但是经过商家不断的炒
作，这个谬论也就成为了真理。现在若果你去电脑城听到 MP4 这个词，绝对是能播放视频格
式的多媒体播放器的概念，而不是能播放音频 MP4 AAC 的随身听。出现这种怪现象不是毫无
原因的，上面已提到 AAC 有版权保护功能，这也是众多唱片公司支持 AAC 的原因，要使自己
的播放器支持 AAC，还得支持付一定的版权费或专利费，另外，AAC 的来源也是个问题，不
像 MP3 那么开放，网上来源极少，所以目前音频 MP4 播放器发展尚不成熟，鉴于以上现状，
众商家干脆“借尸还魂”
，把 MP4 等同 MPEG-4 缩写而论，这样也恰好应了 MP4 是 MP3 的下一
代这条规律，除了支持 MP3 所具有的音乐播放功能外，还具备强大的 MPEG-4 视频播放能力，
另外，恰好“4”在“3”后，从这点出发，把 MP4 等同 MPEG-4 是合理的。
第三部分
和弦铃声格式
与音乐不同的是，和弦铃声都是制作出来的。播放的时候，只需要合成（或解码）就可
以输出 PCM 格式的数据，然后 PCM 格式的数据可以通 I2S 接口传输，然后经过数-模转换输
出。
1、 MIDI 合成音乐
¾ 什么是 MIDI？
MIDI（Musical Instrument Digital Interface）音乐设备数字化接口，也称为数字音
序。“MIDI”文件(*.MID)不是声音文件,不是一段录制好的声音，而是记录声音的信息，然
后再告诉声卡如何再现音乐的一组指令。可以做这样的比喻：如果数字音频是一个人独奏吉
它时的录音带，MIDI 文件则相当于该独奏曲的乐谱。虽然乐谱本身不能产生出任何实际的
声音来，但是乐谱确定了音乐演奏得有多快，拨哪个音符，以及应该用多大的力度弹奏吉它。
我们可以从以下几点说明“MIDI”文件(*.MID)的特性:
1. 首先,正如上所说,它不是声音文件,只是一组指导声卡如何发声的指令，因此它生
成的文件比较小。
2. 它只能应用于电子音乐设备(如电脑声卡等)，而不能应用于人声。原因很简单，它
发出的声音只能来自声卡中的内置音源（例如波表 ROM 中存储的音色）
。自然界中那么丰富
的音乐的和非音乐的声音，都是不能包括在内的。要在 MIDI 中混合自然界的模拟音效，一
般是在在 MIDI 上叠加 PCM/ADPCM。
3. midi 格式是记录每个音的音色、音名、响度、角度、时间等，根据记录查询音色库，
得到应发声音。简单的说，每个音轨对应一种乐器，上面以特定的格式记录每时刻该乐器所
演奏的乐音。比如，在某时刻被定义为钢琴的音轨上记录着上面所说的 135 组成的和弦，那
么芯片就查询音色库得到所对应的音效，然后合成、播放。所以音色库是关系 midi 是否动
听的关键因素，好的音色库是很占地方的。手机中记录音乐的方法与电脑上的 midi 相同或
相似，不同的是它所记录的全是单音，而复杂的和弦音效没有记录。手机和弦芯片中的音色
库都预先存储在内置的波表 ROM 中。
¾ MIDI 的分类：
MIDI 格式后缀名是.MID，但其有 MIDI0、MIDI1、MIDI2、SP-MIDI、XGMIDI 等多种规范。
MIDI0 和 MIDI1：MIDI0 是单音轨，MIDI1 是多音轨。手机的和弦数目等于 midi 格式中
的音轨数，手机的每个音轨都是单音音轨。网上的绝大多数 MIDI 音乐都是多音轨的。另外，
MIDI0 的读入和处理速度要快些，有的硬件可以直接读软盘上的 MIDI 文件回放（即时回放），
而 MIDI1 的做不到。
SMF（Standard MIDI Format）：是标准的 MIDI 格式，SMF 分为 format0 和 format1 两
种格式，即 MIDI0 和 MIDI1。
SP－MIDI：MIDI 协会(MMA)推出一个新的规定 Scalable Polyphony MIDI(简称 SP-MIDI)，
大概可以译成“可升级的 MIDI 复音”。据介绍，这个规定主要作用是当合成器或音源的同时
发音数小于作品的要求时，可以根据作曲家的事先决定省略某些音符或声部。例如一部为
GM2 音源写作的作品（要求 32 复音）在 GM1 或 GM Lite 音源上演奏的时候，由于同时发音
数不足，必然有一些音符被忽略掉。过去这个决定权在机器方面，带有随机的性质，可能把
乐曲搞得残缺不全。现在依据“可升级的 MIDI 复音”规定，控制权转移到作曲家手中，创
作音乐的时候就可以设计好不同的“乐队编制”
，使 MIDI 乐曲的正确演奏更有保证。另外，
SP-MIDI 标准为使用 MIDI 消息实现对振动提示的控制定义了一种可选方法， SP-MIDI 内容
中可以同时含有音频和振动两种表现形式。振动控制被定义为弦乐器。
¾ 什么是音乐合成技术？
音乐合成的途径
1. 采样合成（波表合成）：这是最常见的音乐合成方式，为了得到钢琴声，就把钢琴在不同
音阶下发出的声音录制保存下来，当播放音乐需要钢琴声时，录制下来的样本被调用并通过
计算来获得正确的音符。其缺点是需要许多存储空间来保存高质量的声音样本。例如，大多
数 PC 使用采样合成，其波表将占用 8MB 或更多存储空间，这对移动电话电话来说是一个非
常大的开销。
2. 波谱匹配：Yamaha 的调频合成（FM 合成）同润威公司的 GAP 都属于这种类型。这种方式
包括找到一个数学公式来调制乐器声音输出使得其像真正的乐器那样。这种方式使用很少的
系统开销，同时也比采样合成使用的存储空间少很多。
¾ MIDI 的三个标准：GS、GM、XG
音乐的要素之一是音色。在 MIDI 中，一种乐器就是一种音色（Patch,Program 和 Timbre)。
现实的情况是不同的合成器和音源的制造者为了使自己的产品有独特之处，总是开发出若干
种特殊音色，因而不同品牌的设备在音色种类和音色排列顺序方面会大不相同。这就导致了
一个缺陷的出现：使用甲合成器制作的 MIDI 文件，换了乙合成器就不能正确播放。其原因
在于甲合成器上 01 号音色可能是钢琴，而在乙合成器上，01 号音色可能是打击乐或其他音
色。总而言之。每一种 MIDI 设备的音色设置（以及其他方面）都具有排他性。这就使音乐
家受到了设备的制约。为了有利于音乐家广泛地使用不同的合成器设备和促进 MIDI 文件的
交流， MIDI 协会（MMA）于 1991 年制订了“通用 MIDI”
（GM）标准。该标准以日本 Roland
公司的通用合成器（GS）标准为基础而制订。
值得注意的是，虽然现在有了国际通用的 GM 标准可供电子乐器生产厂家参照，但仍有
另外两个标准与 GM 标准共存，一个是 GS 标准，为 Roland 公司的产品所专用，它产生于 GM
标准出现之前，也是 GM 的前身。另一个是后来出现的 XG 标准，为 YAMAHA 公司的产品所专
用。
1、GS 标准。 GS 为 General Synthesizer 的缩写，意为“通用合成器”，是罗兰公司创立
的一种 MIDI 标准。该标准具有有以下五种主要功能：1）16 个声部。2）最大复音数为 24
或更多。3）GS 格式的乐器音色排列，该格式包含有各种不同风格的音乐所使用的乐器音色
和打击乐音色。4）鼓音色可以通过音色改变信息进行选择。5）包含两种可调节的效果，有
混响和合唱。
2、GM 标准。 GM 是 General MIDI Mode(通用 MIDI）的缩写，即 GMM，通常缩写为 GM。
该标准是 MIDI 协会以罗兰公司的通用合成器（GS）标准为基础而建立的标准。该标准为一
般合成器所共有的 128 种乐器音色（分成 16 组）规定了序号，将 47 种标准的非旋律性打击
乐器分配在第 10 通道，并为这 47 种打击乐器规定了音符序号（35（B2）-81（A6）
）
。以下
是 GM 标准的 128 种音色分类表：
音色号
音色类别
1-8
钢琴
9-16
半音性打击乐器
17-25
风琴
26-32
吉它
33-40
贝司
41-48
弦乐器
49-56
合（唱）奏
57-64
铜管乐器
65-72
簧片乐器
73-80
管鸣乐器
81-88
合成领奏
89-96
合成背景音色
97-104
合成效果
105-112
民间乐器
113-120
打击乐
121-128
音响效果
表三 GM 音色表
3、XG 标准。XG-MIDI 是 Extended General MIDI(扩展的通用 MIDI）的缩写。XG 是继
GM 标准建立之后，雅马哈公司于 1994 年推出的新的音源控制规格。XG 在保持与 GM 兼容的
同时，又增加了许多新的功能，其中包括音色库（音色数量）的增加，和启用更多的控制器
对音色亮度等方面进行控制等等。
2、SMAF 格式（文件扩展名.MMF)
合成音乐移动应用格式（Synthetic music Mobile Application Format，缩写为 SMAF），
是雅马哈公司首创的一种移动电话内容标准，是目前手机上使用非常多的和弦铃声，网络上
有非常多的铃声资源可供下载。最常见的为 MA2，MA3，MA5。MA2 对应 16 和弦，MA3 对应 40
和弦，MA5 对应 64 和弦。与 MIDI 相比，它采用了 MIDI+PCM/ADPCM 的技术，故而支持真人
铃声。
3、VMD
VMD 技术是针对手机平台的新一代多媒体技术，该技术可以用于制作铃声、音乐、卡拉
OK、动画、移动电视、流媒体播放等，为手机用户提供完美的多媒体体验。这标志着移动多
媒体应用产业链的核心技术层面已经取得了关键性的突破，业内人士认为它将成为未来多媒
体手机的新趋势。以铃声应用为例，目前普遍采用的 MIDI 播放效果受播放器或合成器的限
制，由于文件尺寸较小无法嵌入人声、水声（wave 或 mp3）等自然界的声音，表现力不足；
而 WAVE 和 MP3 文件格式可以保存自然界和乐器的声音。但 MP3 需要快速解码，WAVE 也需要
格式转换。VMD 格式中对 MIDI 音乐指令作了全面优化——这种格式对 MIDI 的指令合并精简，
在保留完全相同音质的情况下，使得 MIDI 音乐指令的长度更小；VMD 文件的组织结构也经
过专门设计，使得文件组织模块化，从多轨转换为单轨，在这方面比其它格式更适合硬件平
台处理。在文件格式上 VMD 吸取了 SMIL 等规范的优点，使得 VMD-MIDI 和 WAV、MP3、JPEG
等数据可以保留原有存储方式，也可以独立解析；MIDI 部分不包含专门针对合成器硬件的
繁琐的控制信息，能够广泛地被合成器厂商支持；VMD 格式中对歌词、版权等文本信息使用
UNICODE 编码，可支持多国语言。此外，在 VMD 文件中还可以控制手机的 LED 和马达，实现
声、光和震动一体化的效果，并嵌入音色库和音效库。
第四部分
单声道、立体声和环绕声
一、单声道（Mono）：
所谓的单声道，就是声音只由一只音箱产生，听众可以很明显地听出声音的来源就是音
箱所摆放的位置，其本身的表现力较为平淡；当通过两个扬声器回放单声道信息的时候，我
们可以明显感觉到声音是从两个音箱正中间传递到我们耳朵里的。
二、立体声（Stereo）
：
它利用了两个独立声道进行录音，整个过程不加任何的声音处理。立体声系统的再现需
要一对音箱来完成，它通过调整系统中两只音箱发出声音的大小，让我们误认为声源来自两
只音箱之间直线段中的任意位置。特别是当使用耳机的时候，由于左右两边的声音串音情况
很少发生，所以声音的定位比较准确；再加上比较真实的音场感觉，它的表现力比单声道真
实得多。但（Stereo）的缺陷也十分明显，最明显就是对音箱的位置摆放要求较高，摆位的
不好会直接影响声音的表达。
图2
立体声及其音场
四、3D 环绕声 (3D Surround)
有时也称作 3D增强立体声(3D Enhancement)。它是一种模拟环绕声系统。左、右声道的
立体声信号，经过数字信号处理后，通过左、右两路音箱，产生三维的环绕声场效果。它使
用一般双声道创建一个具有三维感觉的环绕声音场，比立体声好，但与编码式环绕系统有相
当的差距。常见的有SRS实验室的SRS WOW、Q-sound实验室的Qxpander、Spatializer实验室
的Spatializer 3D等技术，主要针对普通双声道立体声信号进行处理，对于杜比环绕声信
号不作解码，采用强制处理的方式，显而易见不可能处理AC-3 信号。
图3
3D 环绕声及其音场
五、环绕声系统与虚拟环绕声（Virtual Surround）：
比较出名的有杜比 AC-3（也称 Dolby Digital，杜比数字)、
DTS(Digital Theater System，
数字影院系统)、THX 家庭影院系统。以著名的 AC-3 杜比数码环绕声系统为例。杜比实验
室在 1991 年开发出一种杜比数码环绕声系统(Dolby Surround DigitaI), 即 AC-3 系
统。 AC-3 杜比数码环绕声系统由 5 个完全独立的全音域声道和一个超低频声道组成, 有
时又将它们称为 5.1 声道。其中 5 个独立声道为: 前置左声道、前置右声道、中置声道、
环绕左声道和环绕右声道；另外还有一个专门用来重放 120Hz 以下的超低频声道, 即 0.1
声道。
图4
5.1 声道立体环绕声
在环绕声的实现上，无论是杜比 AC3 还是 DTS，都有一个特点，就是回放时需要多个音
箱，一般一个声道对应至少一个音箱，比如用杜比数字系统，起码需要 5 个全音频范围的音
箱，再加上一个低音炮，由于价格及空间方面的原因，有的消费者，如多媒体电脑的用户，
并没有足够的音箱，这时候就需要一种技术，能够把多声道的信号经过处理，在两个平行放
置的音箱中回放出来，并且能够让人感觉到环绕声的效果，这就是虚拟环绕声技术。
与 3D环绕技术不同的是，它是对杜比类环绕声信号进行解码，再利用单耳效应和双耳
效应对环绕声信号进行虚拟化处理，尽管仅有两个重放声道，但让听众感到多声道效果，即
产生所谓的扬声器虚拟幻像。虚拟环绕声技术主要有SRS公司的SRS TruSurround、Q-sound
公司的Qsurround、Aureal公司的A3D、Spatializer公司的N-2-2DVS等技术，当然还有杜比
实验室的杜比虚拟环绕声VSS（Virtual Surround Sound）技术，非杜比实验室的技术一般
也获得了杜比实验室的认可，可以用于回放杜比定向逻辑和杜比数字信号。
图5
第五部分
虚拟环绕声
3D 环绕声技术
在MP3中用到的最多的音效有BBE Sound的BBE音效和SRS实验室的SRS音效。在音乐芯片
FT1960中采用了SRS公司的 WOW XT Surrond Sound技术；在松下的立体声功放AN12974A中采
用了Spatializer 3D技术；在雅吗哈的YMU788芯片中采用了DVX技术。
一、SRS音效
这里介绍 SRS 实验室的 SRS WOW（立体声增强技术）。SRS Labs 根据人类听觉的基本元
素，开发出“心理声音”(psychoacoustic)音响技术，包括 SRS（环绕声）、TrueBass（低
音增强）、FOCUS（声场提升）及 WOW（Trubass+SRS），让人类感觉到受器材限制而听不出的
声音。
现在 MP3 播放器所用的 SRS 音效是 SRS WOW，它由 SRS（环绕声）, TruBass（低音增强）
和 FOCUS（声场提升）组成。
官方对 WOW 的描述如下（可能翻译的并不准确）
：
¾ WOW：可以突破小型扬声器和耳机的固有局限，通过提供 3D 音频图象在水平及垂直方位
上扩展声音使其超越器材本身的能力。这样，小型音频设备，电视，无线和个人/便携
产品的制造商不用增大扬声器尺寸便可显著改善其产品的声响效果。特别在诸如 MP3，
WMA 和音频 CD 这些经数码压缩使空间感被极大削弱的单声道或立体声音频格式上，WOW
的修饰效果尤其显著。
¾ SRS： SRS 能恢复被传统录制和播放设备掩盖住的空间信息。通过将立体声信号分解为
多个部分，它可以分离并恢复空间信号或原始录音所呈现的环境信息。并且把它们放
在直接声音的正常空间。这些空间信号被专利幅频响应校正曲线所处理。这样，再现的
声音会非常接近艺术家最初设想的那种现场效果。SRS 没有所谓的最佳听音位置（sweet
spot），因此，音乐和声音好像充满了房间，使听者完全处在全三维声音包围中。
¾ TruBass： TruBass 是一种 SRS 专利技术，运用人类声音心理学专利技术来增强低音性
能。这些技术能利用原始音源中表现的和声再现低频信息。恢复基本低频音调的感觉－
即使该信息低于扬声器和耳机的低频极限。因此 TruBass 可以呈现出比小型、中型和大
型扬声器和耳机的低频极限还低八度，并且深邃丰富的听感。
¾ FOCUS： FOCUS 通过提升声场来生成声音图象的高度感。当于 SRS 3D 结合时，FOCUS
会放大声音图像，产生一个非常高广，最佳听音位置（sweet spot）宽广的声场。另外，
FOCUS 能改善高频通透度让听者沉浸其中。在扬声器低于音场的产品中，比如内投影电
视或固定在门板上的汽车扬声器，FOCUS 将可用电子学方法调节重新将声场定位于听者
前方的最佳位置上。
二、BBE音效
BBE音效的3D环绕立体声技术包括， BBE、BBE Mach3Bass、BBE MP三种。
¾ BBE系统具有两个基本功能，其中之一是调节低、中和高频相位之间的关系。第二个功
能是增强了高频和低频信号。此外，BBE还具有静噪功能。BBE电路内部设有噪声门和高
截止滤波器，能对输入的杂散信号进行衰减。
¾ BBE Mach3Bass用电子学方法扩展特定扩音器的低音响应并能精确调整需要的低频极
限。在世界知名的BBE处理相位误差校正技术的帮助下，BBE Mach3Bass可提供比标准低
音提升电量更深，更密，更精确的低音频率。BBE Mach3Bass不影响中低段声音，否则
会在中低频段产生混浊并改变角色的嗓音。
¾ BBE MP (最小化多项非线性饱和)技术通过数字压缩复原和增强谐波损失，进而提高经
数字压缩处理的音频（如MP3）音效。BBE MP从原始资料中复原声音，因而有效地恢复
声音的温暖感、细腻感和细微差别。BBE MP可将声级平均提高3个分贝，同时保持峰间
摇摆不变。由于声音输出高出3个分贝，信噪比也相应地得到了改善。
通过上面技术描述的对比可以发现，虽然都可以提升低音，但两者对音乐的实质影响是
完全不同的，SRS WOW带给音乐的改变是在空间感方面，就是听上去感觉声音范围更大了，
而BBE提高声音的清晰度，整个声场强度都上了个台阶。
三、Spatializer 3D
Spatializer 实验室的 3D 增强技术。具体不详。
四、DVX技术
日本DiMAGIC公司的DiMAGICVirtu-alizerX(DVX)环绕立体声技术。具体不详。
第六部分
数字音频格式和数字音频接口
一、数字音频格式
1、PCM 格式及其分类
PCM 是未压缩(无损)的数字音频格式。其采样速率为可以为 6、8、11.025、16、22.05、
32、44.1、48、64、88.2、96、192KHz,采样精度可以为 8、12、13、16, 20, 或 24 bits。
可以有 1 到 8 个声道。最大比特速率为 6.144 Mbps，如果有 5 个或更多声道,这个最大速率
就限制了采样率和比特位数。例如音频 CD 为 44.1 kHz/16 bits/双声道；DVD 不仅能够播放
2 声道的超高保真音响（192KHz/24bit/双声道），还能播放线性 PCM 最多 6 个声道的环绕声
音响（96kHz/24bit/6 声道）。
PCM 格式又根据其量化方式可以分为线性 PCM（linear PCM）和非线性 PCM(non-linear
PCM)，前者是均匀量化得到的，后者是非均匀量化得到的。
¾ 均匀量化
如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀
量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图 6 所示。
图6
¾
均匀量化
非均匀量化
非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，
小的输入信号采用小的量化间隔，如图 7 所示。这样就可以在满足精度要求的情况下用较少
的位数来表示。声音数据还原时，采用相同的规则。
在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称
为 u 律压扩(companding)算法，另一种称为 A 律压扩算法。
u 律(u-Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。它的输入和输
出关系是对数关系，所以这种编码又称为对数 PCM。A 律(A-Law)压扩(G.711)主要用在欧洲
和中国大陆等地区的数字电话通信中。A 律压扩的前一部分是线性的，其余部分与 u 律压扩
相同。
对于采样频率为 8 kHz，样本精度为 13 位、14 位或者 16 位的输入信号，使用 u 律压扩
编码或者使用 A 律压扩编码，经过 PCM 编码器之后每个样本的精度为 8 位。
图8
非均匀量化
2、DSD 音频格式
PCM 脉码调制数字音频格式是 70 年代末发展起来的，记录媒体之一的 CD，80 年代初由
飞利浦和索尼公司共同推出。PCM 的音频格式也被 DVD-A 所采用，它支持立体声和 5.1 环绕
声，1999 年由 DVD 讨论会发布和推出的。
PCM 的比特率，从 14-bit 发展到 16-bit、18-bit、20-bit 直到 24-bit；采样频率从
44.1kHz 发展到 192kHz。到目前为止 PCM 这项技术可以改善和提高的方面则越来越来小。只
是简单的增加 PCM 比特率和采样率，不能根本的改善它的根本问题。其原因是 PCM 的主要问
题在于： 1）任何 PCM 数字音频系统需要在其输入端设置急剧升降的滤波器，仅让 20 Hz 22.05 kHz 的频率通过（高端 22.05 kHz 是由于 CD 44.1 kHz 的一半频率而确定）
，这是一
项非常困难的任务。2）在录音时采用多级或者串联抽选的数字滤波器（减低采样率），在重
放时采用多级的内插的数字滤波器（提高采样率），为了控制小信号在编码时的失真，两者
又都需要加入重复定量噪声。这样就限制了 PCM 技术在音频还原时的保真度。
为了全面改善 PCM 数字音频技术，获得更好的声音质量，就需要有新的技术来替换。
近年来飞利浦和索尼公司再次联手，共同推出一种称为直接流数字编码技术 DSD 的格式, 其
记录媒体为超级音频 CD 即 SACD，支持立体声和 5.1 环绕声。
DSD 音频格式简化了信号流程，去掉了 PCM 使用的多级滤波器，将模拟音频直接以
2.8224MHz 的高采样频率，按 1-bit 的数字脉冲来记录。虽然 DSD 格式表示的声音信号是数
字化数据，但是它又与真正的声波非常接近，可完整的记录当今最佳模拟系统的信息。最好
的 30ips 半英寸模拟录音机能记录的频率能超过 50KHz，而 DSD 格式的频率响应指标为从 DC
到 100KHz。能覆盖高级模拟调音台的动态范围，通过其音频频段的剩余噪声功率，保持在
-120dB。DSD 的频率响应和动态范围，是任何数字和模拟的录音系统无法与之比拟的。从声
音的质量上来说, 数字音频技术是为了接近模拟声音的质量。DSD 音频格式的发展将更有利
的与模拟音频系统配合。
二、数字音频接口
常见的数字音频接口有 I2S 接口、PCM 接口和 SPDIF 接口。这里只作简要介绍。
¾ I2S 接口：
只能传输单声道或双声道立体声的数字音频，数据格式为 PCM 格式。该接口又派生出三
类：左对齐格式、右对齐格式、I2S 格式。I2S 时差性能要优于 SPDIF，适合短距离通讯。
¾ PCM 接口：
也叫 DSP 模式音频接口。一般用来传输单声道或双声道立体声的数字音频，但是理论上
也可以传输多声道的数字音频。数据格式为 PCM 格式。
¾ SPDIF 接口：
SPDIF(Sony Phillips Digital Interface) SONY、PHILIPS数字音频接口。它的传输载
体有同轴和光纤两种，后者抗干扰能力更强。SPDIF能传输PCM流，也能传输杜比数字（Dolby
Digital）、DTS这类环绕声压缩音频信号。PCM流是原始、未经压缩的音频信号，杜比数字、
DTS也是来源于PCM流。

音频基本知识 第一部分 模拟声音-数字声音原理

abcdocz.com

音频基本知识第一部分模拟声音-数字声音原理