VR 虛擬實境之聲音— 淺談 Spatial audio、Ambisonic 等聲音處理技術

Written by DATABASS• July 26, 2022• Feature

原文刊載於 DigiLog | https://digilog.tw/posts/1188 獲授權刊登

對於喜歡虛擬實境、360 度影片或是喜歡欣賞電影的朋友，就算不是創作者，多多少少應該也曾好奇過那些 3D 音效是怎麼做到的，這次的文章會藉由一些比較新的收音技術、器材、後期混音、聆聽方式做簡單的介紹。

不過在那之前，讓我們先來看一段影片直接體驗看看吧！

（建議戴上耳機在手機上用 Youtube 觀看，用電腦的話瀏覽器請使用Google Chrome、Firefox、Internet Explore、Opera。Safari目前不支援）

在 360 度影片中，有幾個值得一提的事情：
聲音會隨著我們所看的景象移動
不需要昂貴的機器也可以從手邊的裝置輕鬆服用
雖硬體限制低、但軟體/使用平台卻有很多限制
很難跟他人一起共享

這種處理 3D 聲音的技術並不全然是一個全新的領域，他所運用到的是所謂的 ambisonic 格式（目前尚未有正式的中文翻譯）與我們常聽到的單聲道、立體聲、5.1、7.1不同，ambisonic 是一種，記錄完整 360 度環景的聲音處理格式，廣泛被應用在不論收音、後期處理、聆聽場合的解決方案。在 1970 年代就已經問世，但更因為近幾年由於 VR、AR 等相關領域興起，開始才有了活躍的討論應用。

但在詳細說明 ambisonic 之前，我們需要先建立一下目前常見的聲音處理技術分類做簡單的認識。

聲音處理技術類型

技術的出現，便是為了解決問題、實現原本大家想做卻做不到的事情。對於聲音技術的需求，從 20 世紀初的留聲機，單純只有錄音、播放的單聲道格式，娛樂領域的發展開始追求更自然、更豐富的聲音，而有了立體聲，更別忘了還有 5.1, 7.1 甚至更多聲道的格式了，而這也就是我們最熟悉、最直覺能理解的 Channel Based（聲道導向）。

Channel Based（聲道導向）

解釋
以「聲道」作為基準，去分配各個物件、音軌位於聲道間的聲音大小，也是最傳統、發展最完全的定位方式。我們常聽到的 mono,stereo, 5.1, 7.1 都是這種類型。

種類

上圖的皆為常見平面上的環繞 channel based 演進

後來也有增加了上下排環繞的聲道格式，目前最多聲道的格式有 NHK 的22.2。

https://en.wikipedia.org/wiki/22.2_surround_sound
圖中為三種常見聲道格式的配置

https://www.lifewire.com/auro-3d-audio-4100014
AURO 10.1 配置，除上排聲道另有頭頂的 Overhead 聲道

https://www.soundandvision.com/content/onkyo-unveils-first-dts-neox-receiver
DTS Neo:X 的 11.1 配置

可以發現其實到越來越高聲道數的格式，每家廠牌的建議配置也不太一樣。

廠商

電影、劇場類的裝置常見的廠商有杜比 ( Dolby Digital )、DTS、SDDS 等；家庭劇院的話則沒有 SDDS。
不同廠商有自己的聲道版本、音訊壓縮等的不同，目前最常見的格式為 5.1，廣泛被各種播放設備、影視作品作為標配或選配。

印有四種格式音軌的拷貝底片─（左至右）SDDS（邊緣藍色條）、杜比數位（片孔間的灰色格子）、光聲聲軌（兩條白線）及DTS時間碼（破折線）

應用上的優缺點

優點：

聆聽：作為發展最為完備的導向類型，舉凡傳統、數位電視、DVD、電影等都能夠有廣泛的支援。
後期：以要觀眾要聽到什麼，就怎麼去處理的脈絡去製作，聲音聽起來最自然。
收音：收音方法、設備發展完整，例如像下圖的 decca tree 或可作為 5.1 聲道收錄整體聲音的工具。

https://www.dpamicrophones.com/accessories/surround-decca-tree-mount
DPA 的 DECCA TREE MOUNT

缺點：

聆聽：設備通常不太能兼容不同聲道格式，需要透過 up / down mixing 的方法，讓不同聲道格式來模擬其他格式，並且每推出新的聲道格式，就必須添購新的播放設備、甚至是新的播放空間，對大部分的人來說是很難負荷的。
後期：聲道格式數量的不同影響到監聽時所需的監聽喇叭數量，聲音的方向定位也較為困難。
收音：門檻高，收音方法複雜且昂貴。

畢竟人耳對於聲音定位是非常精準的（不然我們大概永遠找不到那個掉在房間某處的手機了……），聲道導向為了去滿足對於聲音的擬真度，不斷推出更多聲道的格式，並沒有辦法完全解決隨之而來的困難，所以在 2012 年左右，新的導向類型，Object Based （物件導向）問世。

Object Based（物件導向）

解釋
每個「聲音物件」在哪個方向有多少音量，記錄完整的物件資訊。

廠商、種類
Dolby Atmos

DTS:X

VBAP (Vector Base Amplitude Panning)

像是在台北的國賓大戲院就有支援 Dolby Atoms 的影廳喔！

應用上的優缺點

優點：

聆聽：由於跳脫了聲道上的的思維，只單純記錄每個物件的聲音的資訊，定位效果很好，不同的播放設備也可以通用對應他所在的位置，甚至支援傳統 Channel Based 的軟硬體上只需要小小的更新就可以直接使用。
後期、收音：收音不需要考慮他真實存在的方向，很適合原本就是創造出來的電影特效。

https://www.pro-tools-expert.com/home-page/2017/4/24/dolby-announce-dolby-atmos-production-suite-and-mastering-suite

從 dolby atoms的plugins當中可以看到複雜的panning選項已經消失，取而代之的是直覺的在立體空間中的方向控制。

從 dolby atoms的plugins當中可以看到複雜的panning選項已經消失，取而代之的是直覺的在立體空間中的方向控制。

缺點：

聲源較集中，難保持真實性，格式檔案大

Object Based 的格式雖然擁有很好的定位能力，但格式檔案太大的問題卻很難解決，隨之而來就是高成本製作的問題，此時就有了我們這次的討論重點，Scene Based（場景導向）

Scene Based（場景導向）

解釋
場景導向，每個「場景」有多少聲音資訊，從場景正中央收錄完整的場景資訊，而不記錄個別的物件資訊。

Ambisonic

應用
目前最常見的為 ambisonic B-format，ambisonic 是 Scene Based 中的一種。

收音
Ambisonic 的麥克風是一種錄音手法 M/S prosessing 的延伸，與其他的麥克風長相很不一樣，最少擁有 4 個 capsule ，為 1st Order Ambisonic (FOA)，但這四個 capsule 並不是指播放出來的聲道方向，而是一個紀錄整個 360 度場景的 ambisonic A-format ，不過在單字轟炸前我們還是先來看一下 M/S prosessing 是什麼吧！

簡單來說，透過兩個 mono 的麥克風，M 代表 Middle，正對前方的心指向（全／雙指向亦可）麥克風，s 代表 Side ，垂直於正前方的雙指向麥克風，經過處理之後，製造聽起來好像比實際的喇叭擺設廣度更廣的聲音。

應用到 FOA 的麥之後則是不只左右的廣度，更多了上下、前後兩個維度。

4 channel = 環景 360 度聲音資訊
通常我們會以 WXYZ 代表
W：全指向
X：前後的雙指向
Y：左右的雙指向
Z：上下的雙指向

AmbiX or FuMa
如果看一些 ambisonic 麥克風的介紹，會有強調自己可以任意隨設備擺置來翻轉方向的特色。

一是ambisonic 收音常搭配環景的攝影器材使用，由於都放在場景中央，麥克風會收到攝影機運作的聲音、攝影機也會拍到麥克風；二是不同的解碼格式會有不同的方向，最常用的格式為 AmbiX 以及 FuMa，他們的差別最主要是 channel 的順序，AmbiX 是 WYZX；FuMa 則是 WXYZ，值得慶幸的是這些格式間的轉換目前也都有 plugins 可以直接轉換了。

編碼與解碼
從 M/S prosessing 原知，麥克風錄的格式並不是我們丟到 daw 之後，就會聽到整個環景聲音，麥克風的格式與我們真的要聽到的 Scene based 的格式必須經過解碼才可以使用，但這些事情聽起來很複雜，不過通常這個步驟通常也不用自己來，在 FOA 收音的狀態下，知道 A-format 是麥克風錄音的格式，B-format 是解碼之後的格式，透過麥克風附的軟體或是 plugin 就可以做到了。

HOA (Higher Order Ambisonic)
Ambisonic 麥的定位精準度的影響來自 capsule 的多寡，如上述所提的為 1st Order ，按照球諧函數類推，2nd Order 就要 9 個，3rd Order 需要 16 個。

https://en.wikipedia.org/wiki/Ambisonics
第一層：W 全指向
第二層：1st order
第三層：2nd order
第四層： 3rd order

廠商
近幾年來有許多廠商紛紛推出 ambisonic 格式的麥克風，例如 Sennheiser 的 AMBEO VR 麥克風、ZOOM 的 H3-VR 錄音裝置等，High Order 也有很多不同用途的麥克風，像是 3rd Order ambisonic 的 ZYLIA。

https://en-us.sennheiser.com/microphone-3d-audio-ambeo-vr-mic
Sennheiser AMBEO VR MIC

http://www.zylia.co/
3rd order ambisonic 的 ZYLIA ，可透過軟體分割出不同樂器加以混音後期。

https://digilog.tw/posts/1111
搭載 FOA 的手持錄音裝置，不需外接 recorder 很適合入門。

混合收音

3rd order ambisonic 的 ZYLIA ，可透過軟體分割出不同樂器加以混音後期。

https://digilog.tw/posts/1111

搭載 FOA 的手持錄音裝置，不需外接 recorder 很適合入門。

混合收音

不過 ambisonic 麥克風終究有其限制，被擺在場景正中央使得他很難詳細的紀錄所有聲音，而三種導向的關連並不是試圖互相取代，而可以會採取混合收音的方法，除了 ambisonic 的麥克風之外會再架單獨收音等麥克風作為後期調整，可以聽聽看彼此的差別。

後期
Ambisonic 格式的強大，在於後期製作時與其他格式的相容性非常的高，由於他對於其他導向的格式包容性很強，不論 mono, surround, object based 都可以透過轉檔放進來一起調整編輯，也可以輕易匯出成非 ambisonic 的格式相容於各種聆聽場合。相對的，了解複雜的格式們間以及軟體的功能、可以應用的平台、限制也變得十分重要。

理解現在最泛用的格式是哪些，對於自己會需要什麼樣的器材是非常重要的， Ambisonic 雖然有更高 order 的麥克風可以提昇聲音定位的精準度，但是以現在主流支援 360 影片的平台，以 youtube 及 facebook 為例的話，兩者有不同

DAW
ambisonic 以 FOA 的格式在 DAW 中編輯的話，需要支援 4 channel 的格式，不過這時 channel 的用法不是 channel based 指的那種幾個聲道播放的 channel ，而是 FOA 麥克風所錄製的四條 channel ，支援 4 channel 的 DAW 最有名的應該是 Pro tools，但更值得一提的應該是更容易入手的 REAPER，可以說是對於剛踏入門的朋友們的福音呢！

除了麥克風本身的解碼軟體之外，waves 也曾推出過編輯、轉檔、監聽 ambisonic 的 plugins、google也有推出 Resonance Audio 的跨平台開發工具，可以使用於網頁、程式、DAW 等環境。

聆聽
任何支援立體聲的耳機、支援 ambisonic 音訊格式的硬體、平台、裝置（例：youtube、facebook 等）

喇叭與耳機

https://www.genelec.com/-/bang-olufsen-chooses-genelec-for-its-virtual-reality-laboratory

喇叭與耳機的收聽 3D 聲響，最大的差別就在於有沒有透過耳朵的辨位處理，喇叭將聲音播放到整個空間中，耳機則是直接送到耳道裡，就像如果將 ambisonic 格式轉錄成 5.1 ，我們可以自由的在喇叭中間移動旋轉來聽聲音的方位，但這顯然不會是聆聽 ambisonic 的最佳選擇，想要透過喇叭忠實呈現 ambisonic 的聲響的話，需要一個平均分布於聆聽者等距離的球體上，但這顯然對於一般人來說是很難達成的，最常見的方法還是透過耳機—— Binaural 格式。

Binaural 也是一種錄音方法，直接透過模擬頭顱的麥克風來收錄聲音，來忠實收錄人所聽到的聲音，ambisonic 轉錄成 binaural 格式會有個問題，戴上耳機後，怎麼轉耳機就是卡在那，如果沒有辦法做到聲音可以隨著動作移動的話，那耳機聽起來就只是一般的 stereo 而已，（更正：Binaural audio 的格式簡易的說是使用 stereo （例如：耳機聆聽）來重現 3D 的聲響。Ambisonic 轉錄成 Binaural 格式時，透過 head-tracking 的方式即可達到隨頭部移動聲音也相對移動的效果，但這樣的處理還是會顯得不太自然，這關係到人耳如何接收及辨認聲音的方位，）移動就必須要帶入模擬耳朵在空間中移動時聽起來的聲音的修正，也就是而這修正可以想成是一個模擬耳朵的 filter，這 filter 的名稱被稱為—— HRTF（頭部相關傳遞函數）。

我們的耳朵其實是非常靈敏複雜的，就像我們用一雙眼睛分辨眼前物體的遠近大小一樣，我們可以輕易地靠著一對耳朵精準在三維空間的定位聲音的來源，這 filter 中有幾個比較重要的參數如下。

HRTF（Head-Related Transfer Functions 頭部相關傳遞函數）

https://en.wikipedia.org/wiki/Head-related_transfer_function

兩耳時間延遲量差 / ITD（Inter Aural Time Delay）
音源到達兩個耳朵的時間差，例如，如果聲音從正前方傳來，聲音會同時到達雙耳，若在正右方傳來則到達右耳距離則會比到達左耳的多了一個頭顱的距離。

兩耳音量大小差 / IAD（Inter Aural Amplitude Difference）
除了到達的時間的差距，也會因為經過頭顱會被吸收掉音量，所以左右耳聽到的音量也會有所不同。

Cone of confusion

https://electronics.howstuffworks.com/virtual-surround-sound2.htm

但這兩個數值還是會有誤判的情形，例如，正前方與正後方對於耳朵來說 ITD 與 IAD 都是相同的，耳朵必須靠著其他的數據來做判斷。

耳廓繞射效應
耳廓的重要性可以靠著把耳朵輕輕的蓋住，請別人拿鑰匙圈在固定的位置上下移動並甩動，會發現其實有點難辨別到底他在哪個位置，聲音在複雜的耳廓間的反射也是影響我們辨位的重要因素之一。

但從這些參數可見，其實它所參考的數據來自人體本身，也就是說這些數據對於每個人都會有些許的差距，頭顱大小、耳朵構造等，要真的用耳機忠實呈現整個 ambisonic 的完整樣貌，目前除非每個人都可以輕易量測自己的 HRTF ，否則還是很難做到非常精準。

立體聲喇叭收聽 Binarual Audio 的可能性
就像最一開始提到的影片，沈浸式體驗有個特色，就是很難與其他人一起分享，只能一個戴上裝置體驗，但建構一個完整的 ambisonic 監聽系統又顯得不切實際，不過透過立體聲喇叭直接播放 binarual audio 又會有左耳聽得到右耳聲音的狀況（這現象稱為 crosstalk），目前市面上也有少數產品是透過消除 crosstalk 來透過喇叭聆聽 binarual audio 的產品，不過聲音上目前的技術會有一定的失真。

https://medium.com/in-phase-audio/3d-%E8%81%B2%E6%95%88%E8%88%87%E8%99%9B%E6%93%AC%E5%AF%A6%E6%99%AF-vr-4-3475c041f67a

挑戰
這項技術目前似乎還是停留在有諸多限制、沒有被真正廣泛運用的階段，同時對於聲音的要求，相較視覺上的有感程度，追求聲音極致這件事似乎顯得沒有那麼迫切。

如果大家有這樣的工具，又會想要作為什麼用途呢？

參考資料

In-phase Audio
An Introduction to Ambisonics with John Escobar | 360° | VR | Spatial Audio Recording | Berklee Online
WAVES
CDM
Resonance Audio
HRTF音頻3D定位技術綜述
Interaural Level Differences
Universal Audio MID-SIDE MIC RECORDING BASICS
SonicScoop
WIKI: Surround Sound

(Visited 1,574 times, 1 visits today)