解析數(shù)字門禁可視對講中的音視頻同步原理
Linux操作系統(tǒng)下音頻接口有/dev/dsp,/dev/audio,/dev/Mixer三種。前兩種的屬性基本相同,DSP是數(shù)字信號處理器(DigitalSignalProcessor)的簡稱,是用于數(shù)字采樣(sampling)和數(shù)字錄音(recording)的設(shè)備文件,它對于Linux下的音頻編程來講非常重要。向該設(shè)備寫數(shù)據(jù)即意味著激活聲卡上的D/A轉(zhuǎn)換器進行放音,而向該設(shè)備讀數(shù)據(jù)則意味著激活聲卡上的A/D轉(zhuǎn)換器進行錄音。目前許多聲卡都提供有多個數(shù)字采樣設(shè)備。/dev/audio屬性與dsp類似,但更多的用于sun的工作站中,為兼容性考慮,應(yīng)用中一般使用/dev/dsp作為音頻接口。mixer為混音器,也是聲卡設(shè)備中相當(dāng)重要的一部分,它的作用是將多個信號組合或者疊加到一起,但對應(yīng)用程序來說,這些都無需考慮,但可以通過這個接口調(diào)節(jié)聲卡播放時聲音的大小等參數(shù)。
無論是Linux下還是Windows下,聲卡的編程接口都是由聲卡驅(qū)動提供的,而驅(qū)動都是會考慮到時間機制的,其表現(xiàn)形式就是當(dāng)聲卡驅(qū)動沒有裝好時,使用播放器播放多媒體文件時聲音以極快的速度過去了,但是聲卡驅(qū)動裝好之后就很正常了,本文的音視頻同步解決方案即以此為基礎(chǔ)。
五、基于音頻時間機制的音視頻同步解決方案
與文件形式的多媒體不同的是,可視對講中音視頻流的源端是永遠同步的。所以一種簡單的解決方案是發(fā)送端啟用獨立的音頻和視頻線程,進行音視頻采集,采集后只管往外發(fā)送數(shù)據(jù),接收端接到數(shù)據(jù)就分別解碼播放,從表面看,這種采用無同步機制多線程解決方案是可行的,但是忽略了一個問題,即音頻數(shù)據(jù)包和視頻數(shù)據(jù)包的大小。包的大小會影響網(wǎng)絡(luò)傳輸?shù)乃俣?。這種差別在網(wǎng)絡(luò)條件好的情況下顯示不出來,一旦遇到網(wǎng)絡(luò)擁塞或者其他情況就會變得很明顯。
根據(jù)對音頻采集和處理的敘述,我們知道,音頻的采集是有時間機制的。比如采樣率是8000,采樣位數(shù)是8,我們就可以算出采8K字節(jié)的數(shù)據(jù)所用的時間是1s,這樣音頻就可以按照自己的速度播放;而攝像頭每秒采集的幀數(shù)是相對固定的,如OV9650采集速度為平均每秒30幀,這樣即可以算出1/30秒(約為0.03333,具體精度可以根據(jù)要求決定)刷新一幀圖片,這種方式中只要保證源端音頻視頻的采集是同步的就可以,而門禁對講過程中,這種同步是原生的。
接收端接收到音頻數(shù)據(jù),直接交給聲卡播放,當(dāng)前播放的音頻包的時間戳?xí)r間傳送給視頻線程;接收到視頻幀,則將其時間戳?xí)r間與當(dāng)前播放的音頻時間戳進行比較,若未達到參考時間,則解碼播放;若達到參考時間,則說明該視頻幀滯后,丟棄該視頻幀,接收下一個視頻幀,循環(huán)往復(fù),直到線程接收到結(jié)束命令停止;以上述音頻采樣率和采樣位數(shù)為例,視頻參考時間的計算方法為(以C語言格式的?號表達式表示):
音頻時間戳?xí)r間+1/30>視頻時間戳?xí)r間?丟棄:播放;
在編程實現(xiàn)時,采集端和播放端的音頻和視頻可采用獨立的線程,并利用Qt的信號槽機制實現(xiàn)音視頻線程時間戳的傳遞,此處不再贅述。
六、方案測試
本同步方案在科技部中小型企業(yè)產(chǎn)業(yè)化創(chuàng)新基金項目“智能家居系統(tǒng)與控制器”中得到應(yīng)用,應(yīng)用結(jié)果表明,這種音視頻同步解決方案可以實現(xiàn)數(shù)字門禁可視對講的音視頻同步。
評論