說過了多媒體容器格式的變遷,我們來看看音頻編碼是如何發展,在說編碼前,同樣地,讓我們來看看現在通用的數位音頻格式—PCM是怎麼來的。
從音頻波形到0和1
聲波是一種機械波,在數位時代到來前,錄音的原理其實是將聲波的波形、振幅等特徵依樣畫葫蘆記錄到黑膠唱片、磁帶等介質上,但是這種記錄方式並不利於保存,電腦等電子設備的普及使得人們更想用電子數據的方式來保存音頻。但是用於收音的麥克風最終是聲波轉換輸出電流是類比信號,它用電流大小來表示聲波,是連續的;而電腦用的數位信號系統是一種離散的、非連續的信號系統,在常見的二進制系統中,它只有0和1兩種狀態,並不能夠直接保存類比信號,兩者之間需要經過轉換。
怎麼轉換呢?首先針對一段聲音的音頻波形,我們可以用一個較為複雜的波形函數來表示,既然它是函數,那讓我們回想一下學生時期我們都是怎樣把函數畫出來的,用線把一個個點連接在一起對吧?那麼現在我們反過來,在這條已經畫好的函數圖像上面按照一定的間隔取點,這過程就叫做採樣,取完點之後把它的值用數字給記錄下來,這就叫做量化。
▲在音頻編輯軟體中將音頻波形放大,你可以看到一個個取樣點
這種將聲波記錄成數位數據的方式就叫做PCM調製,這裡說的很簡化,但是原理其實是一樣的,就是用記錄下來的點去模擬出聲波函數應該有的樣子,在PCM調製中,我們記錄到的數據是時間與對應的電平值。而上面這兩個操作就帶來了採樣頻率和量化位數這兩個關鍵特徵。
PCM調製下的音頻重要特徵
▲一個波形函數,上面的紅點代表採樣點,兩個紅點之間的橫向距離一致,距離值就是採樣頻率的倒數量化要做的就是將這個紅點的y值以一定的規則記錄下來
採樣頻率
由於聲波是一種連續的信號,你可以把它看成數學上面的連續函數,從這個點到下一個點之間有無數多個點,我們沒有辦法全部將這些時間/振幅信息百分之百記錄下來,只能從中挑選一些,那麼怎麼挑選呢?以一個固定的時間間隔,到點了就記錄。而採樣頻率指的就是每秒記錄這些值的次數,用Hz作為單位。
採樣頻率越高,我們記錄下來的原始聲波信息越多,我們保存下來的數位信號自然就越貼近於原始音頻信號。
量化位數
在確定了採樣次數後,我們在這條聲波函數上面擁有了一些間隔相同的點,我們知道,在二維函數上面的點可以用一組二維坐標值來表示,這裡橫軸是時間t,而縱軸一般就是電平值,因為電腦處理能力的限制,我們不可能用一個無限長的數字去記錄它,只能用有限位數的數字去記錄,而這個位數就是“量化位數” ,它決定了數位音頻信號的量化精度。
因為這種記錄方式用的是近似值方法,所以量化位數越大,我們記錄下的原始類比信號的電平值就越精確、越貼近於原始音頻信號,另外量化位數越大的音頻在動態範圍上也要比量化位數小的音頻要大。
以音頻CD為標竿的無損、有損以及Hi-Res
因為數位信號系統記錄下的音頻信號已經過一次採樣,相對於原始的類比音頻信號它已經是“有損”的了,所以我們今天常說的有損、無損指的是有損壓縮和無損壓縮(可以是無壓縮)的區別。顧名思義,無損壓縮指的是數據在經過壓縮之後沒有任何的損失,而有損壓縮則相對,它在壓縮過後相對於原始數據出現了損失。
而原始數據是什麼呢?那就要講到開啟人類數位音頻時代的CD。
CD:
光、數位、音樂
在上個世紀50'S、60'S,人們常用的還是黑膠唱片,而隨著1965年光盤的問世,這種比黑膠唱片更加小巧精緻的記錄載體很快受到了大公司的青睞,其中飛利浦和Sony就決定用光碟作為記錄數位音頻數據的載體,並為它量身定做一種數位音頻記錄格式,最終他們決定採用LPCM——線性PCM作為編碼。
然後飛利浦和Sony這兩家在CD要使用的LPCM編碼具體參數,也就是採樣頻率和量化位數上面產生了分歧,進行了一段長時間的拉鋸戰。
首先因為人耳普遍只能辨識頻率範圍在20Hz~20kHz之間的聲音,而根據奈奎斯特–香農採樣定理,對於一個連續信號,只要採樣率高於(注意不能等於)原信號帶寬的兩倍即可通過採樣完美(理論上)重建原信號,所以CD標準的採樣頻率先被確定到要在40kHz以上。根據這個底線,飛利浦那邊提出的標準是44056Hz/14-bit,而Sony則是使用44100Hz/16-bit的標準,雙方都是站在自己的利益角度,兩種標準都是為保留與原本的電視、錄像帶系統(NTSC/PAL)的相容性而提出的。
最終拉鋸戰以Sony方面的大獲全勝而告終,CD音頻以44.1kHz/16-bit的雙聲道LPCM的形式進行記錄,這就是Compact Disc Digital Audio(CDDA)標準,它制定於1980年。
回到我們上文說的無損、有損的概念。由於CD是我們最早普及的數位音頻記錄系統,它也是我們普通人能夠接觸到的最接近原始音頻的介質(先不論Hi-Res),所以大家就開始用“無損”來稱呼原始的從音頻CD上面保存下來的數據,當然它也可以用於無損壓縮過的音頻。
Hi-Res
CD標準確定之後,它逐漸變成了音樂發行使用的主要介質,但隨著時代發展,有需求的人們還是發現它不夠用了,首先16-bit的量化位數限制了CD音頻的動態範圍,其次44.1kHz的採樣頻率仍然會在類比轉數位過程中產生人耳可聽到的損失。所以製定一種比CD更高的標準就成為了業界的共識。
從CD誕生到現在的短短四十年中,包括它的創造者Sony和飛利浦在內,一直都有新的廠商想要以自己更新更好的編碼標準取代掉CD標準,但很可惜他們的努力都沒有成功,CD仍然牢牢地佔據著業界。雖然沒有成功,但這些努力還是引起了行業協會的重視。2014年美國唱片業協會(RIAA)這家代表著美國唱片業的貿易團體聯合了其他幾個較為權威的組織一起給比CD更高的音頻制式下了定義:
High Resolution Music is officially defined as "Lossless audio capable of reproducing the full spectrum of sound from recordings which have been mastered from better than CD quality (48kHz/20-bit or higher) music sources which represent what the artists, producers and engineers originally intended."
也就是說,採樣頻率/量化位數在48kHz/20-bit或其上的音頻都可以被稱之為"High Resolution Music",簡稱就是Hi-Res Music。
RIAA的Hi-Res Music Logo
其實在RIAA之前,日本的電子情報技術産業協會(JEITA)在2013年制定了一套適用於日本國內的Hi-Res標準,這套標準規定了Hi-Res音頻在類比和數位處理過程中必須參照使用的規範,其中對於數位處理過程,JEITA要求全過程的音頻格式均在96kHz/24-bit及之上。
這個Logo也是我們現在能看到最多的代表Hi-Res的Logo。
而這套標準也被日本的音響器材業帶向了全球。
常用的有損音頻編碼
一張CD翻錄下來的大小總會有個500、600MB吧,對於上個世紀90年代還在用以幾MB為單位的軟碟的人們來說是太大了,另外網路時代早期的頻寬還很小,比如當年撥號上網最快也就只有56kbps頻寬,如果想將CD保存到自己電腦裡,或者是通過網路與人分享,在當時幾乎是不可能的事。
有些人說為什麼不做壓縮呢?因為在數據壓縮軟體看來,你這個CD文件的數據幾乎沒有冗餘,傳統的數據壓縮方式對音頻數據是起不了太大效果的,那怎麼辦呢?只能走有損編碼的道路了,這其中MP3是比較早、也是人們用最多的有損音頻編碼。
MP3最常用的,不一定是最好的
MP3的全稱為MPEG-1 Audio Layer III,也可以是MPEG-2 Audio Layer III,它是在1993年被標準化,至今已有26年的歷史。別看它的歲數大,但它應用的音頻壓縮思想至今仍然在音頻編碼領域中發揮著重要的作用。
首先,MP3使用了MDCT算法,這種算法改正了原始DCT算法上的一些缺點,它將音頻原本時域信息轉換成頻域信息,是之後對不同頻段信號進行處理的前提。
其次,MP3運用了聲音心理學模型,這裡有三點。第一,人的聽覺頻率範圍大概在20Hz~20kHz,所以可以多去掉一些高頻聲音;第二,人耳對於不同頻率聲音的敏感程度不同,大概在2000Hz~5000Hz之間是最靈敏的,而在兩端下降的比較厲害,尤其是高頻;第三,人耳聽聲音有遮蔽效應,一個較強的音會遮蔽掉較弱的聲音,比如說手機開同樣的音量在鬧區中和在自己房間裡聽起來聲音是不一樣,另外不同頻率聲音的遮蔽寬度不同。根據以上三點,MP3編碼器就可以對不同頻段的音頻信號進行取捨,給人耳比較敏感的頻段多保留一些細節,而去掉人耳不敏感甚至會聽不見的一些聲音。
最後,MP3運用了哈夫曼算法來對處理過後的音頻數據進行壓縮,並且編碼器會不斷地對前面的處理進行調整,以達到用戶給出的碼率、質量需求。
由於以上三大特點,還有別的沒提到原因,MP3在壓縮之後仍然擁有相當高的質量,而壓縮比一點都不差,大概在1:4~1:6之間,最高可能有1:10。因此這已有26年歷史的編碼標準至今日仍未過時,大量在網路上進行傳播的音頻仍用著它,但它並不是沒缺點。
一是它太狠了,對20kHz以上的聲音幾乎就是一刀切,比如下面這張圖就是一段320kbps CBR編碼的MP3音頻頻譜圖,可以看到20kHz上面完全消失了,這種情況主要出現在CBR編碼的MP3上面。
▲使用CBR 320kbps參數進行編碼,可以看到編碼後的音頻頻率上限就是20kHz
當然你也可以強行關閉編碼器的一刀切行為。
▲這是開啟使用最高品質VBR編碼的MP3頻譜,可以看到20kHz以上是完整的
一刀切雖然可以大幅減少音頻文件的體積,但在實際聽感上總會感覺缺了什麼。
第二個缺點,其實也不能算是MP3編碼自身的缺點而是它使用的標籤有問題。肯定有用戶在下載網上的MP3資源時遇到過亂碼問題,比如:
這是因為MP3文件使用的ID3標籤最初沒有統一的文本編碼,各種語言的系統會以自己當前使用的文本編碼標準往裡面寫數據,導致使用其他文本編碼標準的系統無法正確讀取文本數據,最終出現亂碼。比如圖上這個MP3的信息就是日文系統用Shift-JIS文本編碼寫入的,而我們平時使用的簡體中文Windows的文本編碼標準是GBK,無法正確讀取,所以出現了亂碼。ID3標籤在之後的v2版本中改進了這一點。
第三個問題是MP3對於多聲道的支援性較差,常用的MPEG-1 Audio Layer III標準只支持雙聲道音頻,而非主流的MPEG-2 Audio Layer III才支持最高5.1聲道,但是它最高只能夠支持採樣率為24kHz的音頻,完全不夠用。
其他的缺點可能算不上什麼大問題,不然它也不會被用到今天仍然是主流了。
AAC:先進、優秀,但沒能取代MP3
AAC名叫進階音頻編碼(Advanced Audio Coding),它本來是開發出來取代MP3的。聯合起來開發它的公司有一大堆,個個都是知名大企業或研究機構,比如索尼、微軟、杜比實驗室、貝爾實驗室等。最終AAC被MPEG組織接受,寫進了他們的MPEG-2和MPEG-4標準中。
相對於MP3,AAC使用了完整的MDCT算法,因此在編碼效率上它更勝一籌,一般在同等碼率下,AAC的音質比MP3更好一些。而其他的改進點還有支持更大範圍的採樣率(16~48kHz=>8~96kHz),最多支持高達48個聲道,在對頻率高於16kHz的音頻處理上明顯要好等。總之,作為設計目的是取代MP3的編碼,它的特性非常優秀,然而,AAC沒有如願以償的成功取代掉MP3,究其原因可能還是推廣力度不夠大。另外,儘管用戶無需為使用AAC格式進行流式傳輸或分發而付費,但硬體製造商和軟體開發者需要交這筆錢,專利費用也使得在AAC標準確定之初,普通用戶手上根本沒有能用的AAC編碼器,而在這時候,MP3和著名的LAME編碼器已經滿天下都是了。
實際上我們現在的日常生活中AAC可以說是無處不在的,線上看影片的“業界規範”就是以它作為音頻編碼標準,所以你隨便點開一個線上看影片,基本上就會聽到用AAC編碼的音頻。另外一個主力推廣AAC的公司就是蘋果,早在iTunes商店建立之初,他們就使用AAC作為數位音樂商店的音頻編碼標準,一直到今天都是,包括在前幾年推出的Apple Music串流媒體服務。
AAC使用兩種容器,一般我們見到的都是以.m4a為副檔名文件其實就是mp4。因為用mp4容器,文件的位元數據用UTF-8編碼保存,所以不會出現如MP3那樣的亂碼。另一種容器現在比較少見,直接以.aac為副檔名,實際上是一種名為ADTS的容器。
除了以上的特性之外,AAC的編碼還是可以模組化定制,在MPEG-2 Part 7中就已經給出了三種模組化編碼方式,而到了更加現代化的MPEG-4 Part 3規範中,更是給出了多達11種模組化配置規範,其中不乏有低延遲模式和高效模式(HE-AAC),下面就簡單提一下AAC-LC和HE-AAC。
AAC-LC與HE-AAC
AAC-LC,或者叫低複雜度(Low Complexity)AAC,你可以將它看成是原版的AAC編碼,它的編碼規範寫在MPEG-2 Part 7中,在MPEG-4 Part 3中就直接叫做AAC Profile,而HE-AAC全稱High-Efficiency AAC,直譯就是高效AAC,它的編碼規範寫在MPEG-4 Part 3中。主要區別是HE-AAC利用了一些新特性,在編碼效率上有明顯的提高,特別是在低碼率情況下。
▲簡單的關係圖如上,可以看到HE-AAC包含了很多新特性,這些新特性幫助它實現了更高的壓縮比。
WMA:規格很先進,但它是微軟的東西
早個十五年,我們在google搜索音樂下載的時候,除了MP3,看到最多的一種格式應該就是WMA了,看到開頭的WM兩個字母就能明白,這是微軟的格式。沒錯,這是“鼎盛”時期的微軟開發並強力推廣的專有編碼,多見於Windows平台。微軟最初開發出它的目的很簡單,就是為了和MP3和RealAudio競爭,結果大家都知道了,MP3活到了今天,而WMA和RealAudio都已經消逝在歷史長河中了。
WMA全稱Windows Media Audio,它同樣使用了音頻心理學對原始音頻進行處理,去除人耳不敏感的聲音來減小數據體積,思路與MP3大同小異,不過具體實現上面有差異。WMA是與Windows Media緊緊捆綁的一種音頻編碼格式,不過微軟將編解碼開放給了第三方,交錢就可以用,所以在十多年前的MP3播放器上我們也可以播放WMA格式的音頻。WMA與Windows Media一起升級,它還有個強化版,就是WMA Pro。我們比較熟悉的是Windows XP SP2自帶的那個Windows Media Player 9.0,實際上在這個版本中,微軟還為WMA導入了無損編碼,稱為WMA Lossless。
▲Windows 10還自帶Windows Media Player,但有人用嗎?
但是隨著微軟在多媒體格式競爭中的全面失敗,Windows Media也不再更新了,WMA也就慢慢的不再流行了。
Dolby Digital(AC-3)與DTS:電影工業的常客
VCD上面用的MP1音頻編碼效果太差了,還不支援多聲道,但這也是因為CD的容量不夠大,而從DVD開始,人們終於有機會在自己家裡聽到劇院等級的音效了,因為它的容量足以直接收錄電影使用的Dolby Digital或者DTS音頻。那麼這兩種音響是什麼呢?先來說Dolby Digital,我們可能更熟知它的另一個名字:AC-3。
Dolby Digital(AC-3)
Dolby實驗室是美國一家專注於音頻效果、音頻編解碼領域的公司,原本在類比時代,它發明的一系列音頻編碼已經被好萊塢廣泛使用,人們在電影院裡面最常聽到的就是用Dolby技術編碼而成的聲音。而到了數位時代,他們也緊跟潮流,於1991年推出了Dolby Digital這種數位音頻編碼。
Dolby Digital的開創性在於它是首個使用MDCT算法進行壓縮的編碼,同時他們還使用了音頻心理學的研究成果對壓縮算法進行優化,使得最終壓縮後的產物仍然擁有影院級別的效果,但是DD只支持固定碼率編碼,這使得它的碼率一般都會比較高,所以壓縮過後的音頻體積也較大。常見的DD編碼一般有6個聲道,稱為DD 5.1,而在很多DVD上面我們經常可以看到它的Logo。DD音頻的另外一個特點是它的元數據中帶有對解碼過程進行控制的相關信息,使得它在支持的播放器上可以還原出製片方想要的效果。
隨後DD又發展出了很多新分支,其中比較有名的是Dolby Digital Live,它隨著另一家老牌音頻硬體公司—創新一進入了千家萬戶。而DD也有自己的後繼者Dolby Digital Plus,我們可能更熟悉它的另一個名字E-AC-3,它在DD的基礎上提升了比特率和聲道數量,我們經常可以在下載版的美劇中見到這種編碼。
DTS
在電影音頻領域中,另一家影響力很廣,技術力很強的公司就是DTS了,DVD時代我們經常見到的就是他們以公司名命名的音頻編碼格式DTS,這種編碼推出於1993年,直接競爭對手就是Dolby實驗室的產品。
與Dolby Digital選擇使用MDCT算法不同的是,DTS選擇了ADPCM作為算法基礎,這種算法是PCM的變種,與PCM使用固定量化位數記錄電平值不同的是,ADPCM有自適應的特徵,在音頻電平差值較小時用較少的量化位數去記錄,而差值大的時候用更多的量化位數進行記錄,這樣對於存儲空間的利用率就更高了,相對於用MDCT算法算出不同的頻率段再砍掉人耳不敏感部分的做法,基於ADPCM算法的編碼雖然壓縮率要低一些,但是對於聲音細節的保留肯定是它要做的更好。當然,這就使得它的體積控制比DD要差一些,所以在一般的DVD上,我們更常見到的是DD而不是DTS。
▲好萊塢電影真的是以Dobly編碼居多的
Dolby實驗室與DTS的競爭從這時候的DD與DTS開始,一直延續到今天的Dolby TrueHD VS. DTS-HD Master Audio,後面兩個都已經是無損編碼了,我們放到下面文中說。
Vorbis與Opus:多見於語音編碼
說Vorbis這個名字可能大家都不知道是啥,但是一說Ogg那肯定都會“啊我知道”了。其實Ogg是Vorbis編碼的音頻常用的一種容器,而Vorbis編碼則是在2000年公佈的一種計劃取代所有有損音頻壓縮的編碼,對,它的野心極大。
Vorbis編碼的原理與其他有損編碼相比也是大同小異,基於MDCT的時頻轉換,然後過心理聲學進行頻段捨棄,不過之後的處理有些不同,它使用矢量量化算法,在低碼率情況下有著很好的表現,接近於HE-AAC,但沒能完成超越。前面也說了,直到今天MP3也仍然穩坐著音頻領域第一編碼的位置,所以很明顯Vorbis沒有完成自己的計劃。
之後它的主要開發者Xiph.Org基金會又推出了一種新的編碼——Opus,這種編碼有著比Vorbis更好的低碼率表現,在同碼率下終於實現了對HE-AAC的超越。而它還有一個低時延的特性,可以做到目前最低的編碼延遲,這也使得它在數位語音通信領域中大放異彩,它現在也是IETF標準中的一員。
常見的無損音頻編碼
在自己的硬碟空間逐漸大到放CD原碟都沒有問題了之後,新的問題出現了,網速跟不上。回想一下2005年左右,國內家庭普遍還是在用ADSL上網,速率可能也就只有1~2Mbps,用這個速度下點MP3還行,但是下原碟就太慢了,但很多音樂愛好者就是想收藏“沒有瑕疵”的無損音頻,怎麼辦呢?這時無損音頻壓縮編碼走上了舞台,首先登場的是Monkey's Audio,又叫APE。
APE:無損音頻壓縮的先行者
APE是Monkey's Audio這個編碼使用的副檔名,但是叫得多了大家都只知道APE而不知道Monkey's Audio了。它是可考的、比較早出現的一種無損音頻編碼,後面要提到的WavPack(.wv)比它出現的還要早,但是APE卻是頭一個大範圍流行起來的無損音頻編碼,最初版本公開於2000年。
問題來了,前面不是說對傳統壓縮方式對於音頻數據並不能起到很好的效果嗎?那APE是怎麼在無損的情況下實現如此高的壓縮率的?答案也很簡單,傳統方式不行,那我就用新的針對性算法。
APE主要使用了三大算法來實現對原始音頻數據的無損壓縮,第一個是Joint Coding,簡單說就是將左右兩個聲道的共同信息進行複用,從而減小音頻體積;第二個是線性預測編碼(Linear Predictive Coding),因為音頻信號前後關聯性非常大,可以根據前面一段音頻波形預測後面的音頻波形,如果預測得到的值與真實值有差距,則對差值進行編碼,這種算法是音頻無損編碼的核心殺手級算法,可以做到在沒有損失的情況下大幅提升壓縮比;第三個就是預測編碼所需要的量化位數。
這三種主要算法使得APE可以在沒有損失的情況下達到約50%的壓縮比,這是之前的無損音頻編碼做不到的事情。
但是APE也有較大的缺陷,最高只支援雙聲道、24-bit的量化位數讓它在新世代落後於FLAC,因為存在浮點計算,所以對硬體性能的需求要高於FLAC,在編解碼上面也更慢,而它也沒有針對數據完整性做相關保護措施,文件中的任何一部分損壞都將使這部分及之後的所有數據全部損壞,無法讀取。
另外由於APE雖然標了自由軟體,但是它使用的許可證並不能讓人們直接使用Monkey's Audio現成的源代碼,必須自行動手去實現對它的解碼支持,這也限制了它的應用範圍。
FLAC:免費開放,新的業界事實標準
FLAC基本上是與APE同時間提出來的,稍微晚了那麼一點點,它直接將編碼的最大特點寫在自己的名字裡了Free Lossless Audio Codec,自由、無損。
相對於APE,雖然同樣使用了線性預測算法,但它的壓縮比稍微差了一點,不過由於FLAC使用全整數的數據計算方式,所以低端電子設備也可輕鬆對其進行解碼,而它在數據結構上考慮到了數據完整性和流傳輸,它採用幀結構設計確保了即使文件的部分片段遭遇不測,其他部分也能夠正常播放,而支持流傳輸的特性使得它在可以在串流媒體時代佔據一席之地。並且它對於多聲道的支持比APE強很多,最高可以支持8聲道。
FLAC身上的種種優點使得它成為了目前最為流行的無損音頻壓縮編碼,Android早就添加了對於FLAC的支持,而iOS也在第11個大版本中放下自己的矜持加入了對它的支持。FLAC已經儼然成為了新的業界通用編碼,各大Hi-Res音樂售賣網站也在使用FLAC作為載體傳播Hi-Res及普通無損音樂。
Apple Lossless(ALAC)
macOS作為很多音頻編輯軟件使用的系統環境,對於音頻編碼自然也是有著很高的要求,其實蘋果自己也很早就跟進了無損音頻的發展,在2004年的時候他們就推出了自己的無損音頻壓縮編碼——Apple Lossless,但是當時這種格式只有蘋果自家的系統和軟件才能支持,並且會收取授權費用,這也導致了ALAC錯過了無損音頻開始發展的萌芽期,直到2011年,FLAC已經成為市場主流的情況下,蘋果才將ALAC開放出來,並且取消了它的專利費用。
ALAC在編碼方式上與其他幾種無損音頻壓縮編碼並沒有太大的區別,同樣是基於線性預測的算法,不過它的編碼器連個壓縮率選項都不提供,但編碼速度確實挺快的。ALAC與AAC一樣使用MP4作為數據容器,所以也繼承了MP4良好的標籤支持。
但是它的使用範圍始終不廣,本來就基本限定於蘋果設備上,而在iOS和macOS紛紛支持FLAC之後,它的存在意義就更小了。
Dolby TrueHD與DTS-HD Master Audio:藍光時代電影常用音頻編碼,新的戰場
從DVD到藍光是一次大的飛躍,光盤這種存儲介質在新的藍色激光的幫助下,大幅度提升了存儲密度,也使得它可以記錄體積更為龐大的音頻,有了大的空間,那肯定就要上無損啊,其實藍光的容量已經足夠放7.1聲道、48kHz/24-bit的LPCM了,但是它的體積還是太大,所以Dolby和DTS不約而同的在高清時代推出了新版的音頻壓縮編碼技術,Dolby這邊是以Dolby TrueHD系列為主,而DTS是以DTS-HD Master Audio為主,兩邊都是無損壓縮技術,這邊就講的粗略一些了。
Dolby TrueHD
Dolby TrueHD使用與DVD-Audio相同的MLP編碼對原始PCM音頻數據進行處理,最高支持192kHz/24-bit的規格,另外還支持16個獨立聲道。與前任Dolby Digital一樣,它也帶有用於控製播放過程的元數據,提供更加還原的音頻效果,Dolby後來推出的Atmos氛圍聲效果就是通過這些獨立於音軌之外的元數據實現的。
DTS-HD Master Audio
這兩種多見於藍光原碟的音頻編碼都附帶了對原來有損編碼的相容,DTS-HD Master Audio內建了一條有損音軌,稱為DTS Core Stream,它的無損部分其實是對有損部分的一個補充,在支持的設備上自動就會播放無損的DTS-HD Master Audio,而在不支持的設備上也可以切換到DTS Core Stream,不會影響到正常的播放,而另一邊的Dolby TrueHD則是通過附帶一條Dolby Digital音軌的方式來解決相容性。
DTS-HD Master Audio在日本用的比較多一些,尤其是各種動畫小圓盤。
TTK,TAK,WavPack等
除了上面三個稍微多見一點的編碼以外,無損音頻編碼界還有很多其他的編碼,由於APE推出時間早、FLAC用的人多等原因,這些無損壓縮編碼最終都沒有推廣開來,成為了比較小眾的編碼,雖然它們可能在某些方面有著優勢,但很可惜,時勢造英雄,取代英雄沒有這麼容易。
PDM與DSD:另一種音頻調製方式
說起PDM(P ulse D ensity M odulation脈衝密度調製)可能沒學過數字電路的同學會雲裡霧裡,簡單一點的說法就是PDM使用0和1來模擬原始波形,怎麼模擬呢?通過在單位時間內0和1的堆疊來進行,因為此時0和1的密度代表了波形的振幅,所以叫做脈衝密度調製,它與PCM記錄電平值的做法是完全不同的。
基於PDM調製的原理,Sony和飛利浦在1999年推出了用於取代CD的SACD(Super Audio CD),它使用的ΔΣ算法在類比 / 數位轉換(A/D)過程中會以64倍於CD的採樣率(2.8224MHz)對原始音頻進行過採樣,而由於PDM的特性,量化位數當然就只有1-bit,因為只有每一個採樣點都只有開或者關兩種狀態嘛。
▲PCM與DSD的對比
DSD解決了傳統PCM編碼上的高頻量化噪聲問題,高採樣率同時還帶來了更加豐富的聲音細節,而密度調製的方式也使得它擁有更大的聲音動態範圍。除了原始的64倍採樣率的DSD之外,後來還推出了DSD128、DSD256、DSD512等新格式,它們的採樣率逐步上升。
現在我們可以拿到的DSD音頻一般都是ISO鏡像格式的,使用專門的解碼器可以將其轉換成PCM音頻播放,而支持DSD直通播放的設備還是相當的貴。
SACD的物理介質其實就是DVD,同期其實還有一個DVD-Audio陣營,他們仍然使用了相容性較好的PCM調製,不過是基於一種新的名為MLP(Meridian Lossless Packing)編碼方式,在雙聲道情況下最高支持192kHz/24-bit的PCM音頻流,直到今天,它的規格都是相當高的。
但是Hi-Fi最終也只是少數人的玩物,它的配套解碼器、播放器都太貴了,而且Sony當時為了拉攏唱片發行商做出了“永遠不會讓PC讀取SACD”的承諾(後來他們食言了)也限制了SACD的進一步推廣,在面對以iPod、iTunes為代表的數字音樂浪潮時,它和DVD-Audio都只能站在一邊看著眼饞,事實證明,絕大多數人們需要的是方便快捷的聽歌體驗,所以便於攜帶的各種MP3播放器很快就取代掉了CD成為了新的潮流。而後,就是串流媒體取代傳統MP3的又一股浪潮,我們現在就身處於這股浪潮之中。
總結:
要總結的話就是,MP3和AAC這兩種有二十多年歷史的編碼統治著有損音頻編碼,而FLAC基本上成為了無損音頻編碼的事實標準,而電影工業中Dolby和DTS仍然在競爭,目前看上去Dolby更佔上風。而在開放軟體領域中,Vorbis和Opus這兩種開放的格式也慢慢在Web領域中得到大量應用。
其實看到最後,你會發現,本文寫到的幾種基於PCM調製的無損、有損音頻壓縮編碼基本上都是基於類似的編碼——有損壓縮很多都是基於MDCT,而無損壓縮基於線性預測編碼。用烹飪打個比方,原始的PCM音頻就是主要原料,你可以把MDCT和線性預測編碼看成是不同的主要做法,比如MDCT是炒而LPC是蒸,其他的一些算法就像是對於主要原料的小處理方式,比如先過個水或者是先醃製一下,他們與主要做法一起左右著整道菜的口感和味道,而最終得到的菜的營養價值也根據不同的處理手段而改變。
另外,在有損壓縮技術中,心理聲學(Psychoacoustics)是一大助力劑,它幫助各種編碼對原始音頻進行取捨,在對聽感影響很小的情況下大幅減少體積。而心理學也不只是在音頻編碼領域中起著作用,在視頻和圖像編碼中,它同樣有著重要的貢獻,當然,這就是後話了。
因為各種物理極限和自然定律,數位記錄方式永遠不可能100%還原出現實,但是人類是不會停止研究、應用新技術的腳步的,數位世界將會越來越接近於現實。
實際上在這個網路流媒體時代,我們的需求也逐漸發生了改變,從怎麼樣帶更多的歌變成了怎麼樣聽得更爽,所以現在對於音頻壓縮技術還是有不小的需求的,一個更為高效的編碼可以在節省網絡頻寬的同時提高人們聽音樂的享受程度,而聚沙成塔,每個人那兒節省一點點的頻寬最終聚合起來就可以節省巨大的頻寬費用,對於用戶本身也可以節省流量,雙贏的事情何樂而不為呢?這也是為何我們要追求更高效的媒體壓縮方式的一個初衷。
來源
謝謝收看
留言列表