新闻| 文章| 资讯| 行情| 企业| wap手机版| article文章| 首页|会员中心|保存桌面|手机浏览
普通会员

汶上市念露科技有限公司

企业列表
新闻列表
  • 暂无新闻
推荐企业新闻
联系方式
  • 联系人:汪女士
首页 > 新闻中心 > MP3文件获取时长 android mp3文件信息
新闻中心
MP3文件获取时长 android mp3文件信息
发布时间:2024-11-10        浏览次数:0        返回列表

MP3文件获取时长 android mp3文件信息

MP3的全称是MPEG Audio Layer3,它是一种高效的计算机音频编码方案,它以较大的压缩比将音频文件转换成较小的扩展名为.MP3的文件,基本保持原文件的音质。MP3是ISO/MPEG标准的一部分,ISO/MPEG标准描述了使用高性能感知编码方案的音频压缩,此标准一直在不断更新以满足“质高量小”的追求,现已形成MPEGLayer1、Layer2、Layer3三个音频编码解码方案。MPEGLayer3压缩率可达1:10至1:12,1M的MP3文件可播放1分钟,而1分钟CD音质的WAV文件(44100Hz,16bit,双声道,60秒)要占用10M空间,这样算来,一张650M的MP3光盘播放时间应在10小时以上,而同样容量的一张CD盘播放时间在70分钟左右。MP3的优势是CD难以比拟的。

MPEG(MovingPictureExpertsGroup)是ISO下的一个动态图 像专家组,它制定的MPEG标准广泛应用于各种多媒体中。 MPEG标准包括视频和音频标准,其中音频标准已制定出MPEG-1、MPEG-2、MPEG-2AAC和MPEG-4。

MPEG-1和MPEG-2标准使用同一个音频编码解码族—Layer1、2、3。MPEG-2一个新特点是采用低采样率扩展降低数据流量,另一特点是多通道扩展,将主声道增加为5个。MPEG-2AAC(MPEG-2AdvancedAudioCoding)标准是FraunhoferIIS 同AT&T公司于1997年推出的,旨在显著减少数据流量,MPEG22AAC采用的修正的离散余弦变换(MDCT,ModifiedDiscreteCo2sineTransform)算法,采样率可在8KHz到96KHz之间,声道数可在1-48之间。

MPEG Audio Layer1、2、3三个层使用相同的滤波器组、位流结构和头信息,采样频率为32KHz、4411KHz或48KHz。Layer1是为数字压缩磁带DCC(DigitalCompactCassette)设计的,数据流量为384kbps,Layer2在复杂性和性能间作了权衡,数据流量下降到256kbps-192kbps。Layer3一开始就为低数据流量而设计,数据流量在128kbps-112kbps,Layer3增加了MDCT变换,使其频率分辨能力是Layer2的18倍,Layer3还使用了与MPEGVid2eo类似的平均信息量编码(EntropyCoding),减少了冗余信息。MP3绝大部分使用的是MPEG21标准。

MP3格式始于80年代中期,德国Erlangen的Fraunhofer研究 所致力于高质量、低数据率的声音编码。

MP3音频压缩包含编码和解码两个部分。编码是将WAV文件中的数据转换成高压缩率的位流形式,解码是接受位流并将其重建到WAV文件中。

MP3采用了感知音频编码(PerceptualAudioCoding)这一失真算法。人耳感受声音的频率范围是20Hz-220kHz,MP3截掉了大量的冗余信号和无关的信号,编码器通过混合滤波器组将原始声音变换到频率域,利用心理声学模型,估算刚好能被察觉到的噪声水平,再经过量化,转换成Huffman编码,形成MP3位流。解码器要简单得多,它的任务是从编码后的谱线成分中,经过反 量化和逆变换,提取出声音信号。

在压缩音频数据时,先将原始声音数据分成固定的分块,然后作顺向MDCT变换,MDCT本身并不进行数据压缩,只是将一组时域数据转换成频域数据,以得知时域变化情况,顺向MDCT将每块的值转换为512个MDCT系数。量化使数据得到压缩,在对量化后的变换样值进行比特分配时要考虑使整个量化块最小,这就成为有损压缩了。解压时,经反向MDCT将512个系数还原成原始声音数据,前后的原始声音数据是不一致的,因为在压缩过程中,去掉了冗余和不相关数据。

 

MP3 文件大体分为三部分:TAG_V2(ID3V2),frame, TAG_V1(ID3V1) 

 

下面是一个头内容图示,使用字符 A 到 M 表示不同的区域。在表格中你可以看到每一区域的详细内容。AAAAAAAA AAABBCCD EEEEFFGH IIJJKLMM

MP3文件获取时长 android mp3文件信息_采样率

MP3文件获取时长 android mp3文件信息_数据_02

MP3文件获取时长 android mp3文件信息_采样率_03

MP3文件获取时长 android mp3文件信息_数据_04

MP3文件获取时长 android mp3文件信息_ci_05

MP3文件获取时长 android mp3文件信息_数据_06

 

关于读取帧头我使用了下面的方法定义一个结构体

FHEADER, *pFHEADER;请注意我的同步信息分成了两个部分,而且其他的位的顺序也和上表列出的有所差别,这个主要是因为 c 语言在存取数据时总是从低位开始,而这个帧头是需要从高位来读取的。读取方式如下

这样一次就可以读入帧头的所有信息了。

 

我们首先区分两个术语:帧大小和帧长度。帧大小即每帧采样数表示一帧中采样的个数,这是恒定值。其值入下表所示

MP3文件获取时长 android mp3文件信息_采样率_07

帧长度是压缩时每一帧的长度,包括帧头。它将填充的空位也计算在内。LayerI 的一个空位长 4 字节,LayerII 和 LayerIII 的空位是 1 字节。当读取 MPEG 文件时必须计算该值以便找到相邻的帧。注意:因为有填充和比特率变换,帧长度可能变化。从头中读取比特率,采样频率和填充,LyaerI 使用公式:帧长度(字节) = (( 每帧采样数 / 8 * 比特率 ) / 采样频率 ) + 填充 * 4LyerII 和 LyaerIII 使用公式:帧长度(字节)= (( 每帧采样数 / 8 * 比特率 ) / 采样频率 ) + 填充例:LayerIII 比特率 128000,采样频率 44100,填充 0=〉帧大小 417 字节

 

之前看了一些文章都说 mp3 的一帧的持续时间是 26ms,结果在实际程序的编写中发现无法正确按时间定位到帧,然后又查了一些文章才知道,所谓 26ms 一帧只是针对 MPEG1 Layer III 而且采样率为 44.1KHz 来说是对的,但 mp3 文件并不都是如此,其实这个时间也是可以通过计算来获得,下面给出计算公式

每帧持续时间(毫秒) = 每帧采样数 / 采样频率 * 1000

这样通过计算可知 MPEG1 Layer III 采样率为 44.1KHz 的一帧持续时间为 26.12...不是整数,不过我们权且认为它就是 26 毫秒吧。如果是 MPEG2 Layer III 采样率为 16KHz 的话那一帧要持续 36 毫秒,这个相差还是蛮大的,所以还是应该通过计算来获的,当然可以按 MPEG 版本,层数和采样率来建一个表,这样直接查表就可以知道时间了。

 

在帧头后边是 Side Info(姑且称之为通道信息)。对标准的立体声 MP3 文件来说其长度为 32字节。通道信息后面是 Scale factor(增益因子)信息。当解码器在读到上述信息后,就可以进行解码了。当 MP3 文件被打开后,播放器首先试图对帧进行同步,然后分别读取通道信息及增益因子等数据,再进行霍夫曼解码,至此我们已经获得解压后的数据。但这些数据仍然不能进行播放,它们还处于频域,要想听到歌曲还要将它由频域通过特定的手段转换到时域。接下来的处理分别为立体化处理;抗锯齿处理;IMDCT 变换;IDCT 变换及窗口化滑动处理。

我们知道,对于 mp3 来说现在有两种编码方式,一种是 CBR,也就是固定位率,固定位率的帧的大小在整个文件中都是是固定的(公式如上所述),只要知道文件总长度,和从第一帧帧头读出的信息,就都可以通过计算得出这个 mp3 文件的信息,比如总的帧数,总的播放时间等等,要定位到某一帧或某个时间点也很方便,这种编码方式不需要文件头,第一帧开始就是音频数据。另一种是 VBR,就是可变位率,VBR 是 XING 公司推出的算法,所以在 MP3 的 frame 里会有“Xing"这个关键字(也有用"Info"来标识的,现在很多流行的小软件也可以进行 VBR 压缩,它们是否遵守这个约定,那就不得而知了),它存放在 MP3文件中的第一个有效帧的数据区里,它标识了这个 MP3 文件是 VBR 的。同时第一个帧里存放了 MP3 文件的帧的总个数,这就很容易获得了播放总时间,同时还有 100 个字节存放了播放总时间的 100 个时间分段的帧索引,假设 4 分钟的 MP3 歌曲,240S,分成 100 段,每两个相邻 INDEX 的时间差就是 2.4S,所以通过这个 INDEX,只要前后处理少数的frame,就能快速找出我们需要快进的帧头。其实这第一帧就相当于文件头了。不过现在有些编码器在编码 CBR 文件时也像 VBR 那样将信息记入第一帧,比如著名的 lame,它使用"Info"来做 CBR 的标记。

 

这里列出 VBR 的第一帧存储文件信息的头的格式。有两种格式,一种是常见的 XING Header(头部包含字符‘Xing’),另一种是 VBRI Header (头部包含字符‘VBRI’)鉴于 VBRI Header不 常 见 , 下 面 只 说 XING Header , 关 于 VBRI Header 请 看http://www.codeproject.com/audio/MPEGAudioInfo.asp。

XING Header 的起始位置,相对于第一帧帧头的位置,单位是字节36-39 "Xing"21-24 "Xing"21-24 "Xing"13-16 "Xing"文件为 MPEG1 并且不是单声道(大多数 VBR 的 mp3 文件都是如此)文件为 MPEG1 并且是单声道文件为 MPEG2 并且不是单声道文件为 MPEG2 并且是单声道

XING Header 格式

MP3文件获取时长 android mp3文件信息_ci_08

MP3文件获取时长 android mp3文件信息_采样率_09

这样算来,XING Header 包括帧头一共最多只需要 156 个字节就够了。当然也可以在 XINGHeader 后面存储编码器的信息,比如 lame 在其后就是存储其版本,这需要给第一帧留足够的空间才行。至于 mp3 的信息用从 XING Header 读出的信息就可以计算比如总持续时间 = 总帧数 * 每帧采样数 / 采样率 (结果为秒)平均位率 = 文件长度 / 总持续时间 * 8

 

MPEG 音频标签分为两种,一种是 ID3v1,存在文件尾部,长度 128 字节,另一种是 ID3v2,是对 ID3v1 的扩展,存在文件头部,长度不定。

ID3v1 标签用来描述 MPEG 音频文件。包含艺术家,标题,唱片集,发布年代和流派。另外还有额外的注释空间。位于音频文件的最后固定为 128 字节。可以读取该文件的最后这128 字节获得标签。结构如下AAABBBBB BBBBBBBB BBBBBBBB BBBBBBBBBCCCCCCC CCCCCCCC CCCCCCCC CCCCCCCDDDDDDDDD DDDDDDDD DDDDDDDD DDDDDEEEEFFFFFFF FFFFFFFF FFFFFFFF FFFFFFFG

MP3文件获取时长 android mp3文件信息_ci_10

该规格要求所有的空间必须以空字符(ASCII 0)填充。但是并不是所有的应用程序遵循该规则,比如 winamp 就用空格(ASCII 32)代替之。在 ID3v1.1 结构中有些改变。注释部分的最后一个字节用来定义唱片集中的轨道号。如果不知道该信息时可以用空字符(ASCII 0)代替。流派使用原码表示,为下列数字之一:

MP3文件获取时长 android mp3文件信息_MP3文件获取时长 android_11

MP3文件获取时长 android mp3文件信息_MP3文件获取时长 android_12

 

Winamp 扩充了这个表

MP3文件获取时长 android mp3文件信息_ci_13

其他任何的数值都认为是“unknown”

ID3V2 到现在一共有 4 个版本,但流行的播放软件一般只支持第 3 版,既 ID3v2.3。由于ID3V1 记录在 MP3 文件的末尾,ID3V2 就只好记录在 MP3 文件的首部了(如果有一天发布 ID3V3,真不知道该记录在哪里)。也正是由于这个原因,对 ID3V2 的操作比 ID3V1 要慢。而且 ID3V2 结构比 ID3V1 的结构要复杂得多,但比前者全面且可以伸缩和扩展。下面就介绍一下 ID3V2.3。每个 ID3V2.3 的标签都一个标签头和若干个标签帧或一个扩展标签头组成。关于曲目的信息如标题、作者等都存放在不同的标签帧中,扩展标签头和标签帧并不是必要的,但每个标签至少要有一个标签帧。标签头和标签帧一起顺序存放在 MP3 文件的首部。

(一)、标签头

在文件的首部顺序记录 10 个字节的 ID3V2.3 的头部。数据结构如下:char Header[3]; char Ver; char Revision; char Flag; char Size[4]; 注:对这里我有疑惑,因为在实际寻找首帧的过程中,我发现有的 mp3 文件的标签大小是不包含标签头的,但有的又是包含的,可能是某些 mp3 编码器写标签的 BUG,所以为了兼容只好认为其是包含的,如果按大小找不到,再向后搜索,直到找到首帧为止。

(1).标志字节

标志字节一般为 0,定义如下:abc00000a -- 表示是否使用 Unsynchronisation(这个单词不知道是什么意思,字典里也没有找到,一般不设置)b -- 表示是否有扩展头部,一般没有(至少 Winamp 没有记录),所以一般也不设置c -- 表示是否为测试标签(99.99%的标签都不是测试用的啦,所以一般也不设置)

(2).标签大小

一共四个字节,但每个字节只用 7 位,最高位不使用恒为 0。所以格式如下0xxxxxxx 0xxxxxxx 0xxxxxxx 0xxxxxxx计算大小时要将 0 去掉,得到一个 28 位的二进制数,就是标签大小(不懂为什么要这样做),计算公式如下:

(二)、标签帧

每个标签帧都有一个 10 个字节的帧头和至少一个字节的不固定长度的内容组成。它们也是顺序存放在文件中,和标签头和其他的标签帧也没有特殊的字符分隔。得到一个完整的帧的内容只有从帧头中的到内容大小后才能读出,读取时要注意大小,不要将其他帧的内容或帧头读入。帧头的定义如下:

(1).帧标识

用四个字符标识一个帧,说明一个帧的内容含义,常用的对照如下:TIT2=标题 表示内容为这首歌的标题,下同TPE1=作者TALB=专集TRCK=音轨 格式:N/M 其中 N 为专集中的第 N 首,M 为专集中共 M 首,N 和 M 为ASCII 码表示的数字TYER=年代 是用 ASCII 码表示的数字TCON=类型 直接用字符串表示COMM=备注 格式:"eng0 备注内容",其中 eng 表示备注所使用的自然语言

(2).大小

这个可没有标签头的算法那么麻烦,每个字节的 8 位全用,格式如下xxxxxxxx xxxxxxxx xxxxxxxx xxxxxxxx算法如下:int FSize;FSize = Size[0]*0x1000000+Size[1]*0x10000+Size[2]*0x100+Size[3];

(3).标志

只定义了 6 位,另外的 10 位为 0,但大部分的情况下 16 位都为 0 就可以了。格式如下:abc00000 ijk00000a -- 标签保护标志,设置时认为此帧作废b -- 文件保护标志,设置时认为此帧作废c -- 只读标志,设置时认为此帧不能修改(但我没有找到一个软件理会这个标志)i -- 压缩标志,设置时一个字节存放两个 BCD 码表示数字j -- 加密标志(没有见过哪个 MP3 文件的标签用了加密)k -- 组标志,设置时说明此帧和其他的某帧是一组值得一提的是 winamp 在保存和读取帧内容的时候会在内容前面加个'0',并把这个字节计算在帧内容的大小中。附:帧标识的含义

(4). Declared ID3v2 frames

在 VC++中打开一个名为 test.mp3 文件,其内容如下:

该文件长度 1416H(5.142K),帧头为:FF FB 52 8C,转换成二进制为:

对照表 1 可知,test.mp3 帧头信息见表 5。表 5 test.mp3 文件帧头信息

MP3文件获取时长 android mp3文件信息_MP3文件获取时长 android_14

第 1397H 开始的三个字节是 54 41 47,存放的是字符“TAG”,表示此文件有 ID3 V1.0 信息。

139AH 开始的 30 个字节存放歌名,前 4 个非 00 字节是 54 45 53 54,表示“TEST”;

13F4H 开始的 4 个字节是 04 19 14 03,存放年份“04/25/2003”;

最后 1 个字节是 4E,表示音乐类别,代号为 78,即“Rock&Roll”;

其它字节均为 00,未存储信息。