乱人伦视频在线观看中文,亚洲无码啪啪啪啪啪啪,欧美日本在线旡码

論文翻譯：2021_Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net

2023-06-26 21:05:02來(lái)源： 博客園

論文地址：微型循環(huán)U-Net實(shí)時(shí)降噪和去混響
論文代碼：

(相關(guān)資料圖)
https://github.com/YangangCao/TRUNethttps://github.com/amirpashamobinitehrani/tinyrecurrentunet
引用格式：Choi H S, Park S, Lee J H, et al. Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 5789-5793.

摘要

現(xiàn)代基于深度學(xué)習(xí)的模型在語(yǔ)音增強(qiáng)任務(wù)中表現(xiàn)出了顯著的改進(jìn)。然而，對(duì)于現(xiàn)實(shí)世界的應(yīng)用程序來(lái)說(shuō)，最先進(jìn)的模型的參數(shù)數(shù)量往往過(guò)于龐大，無(wú)法部署到設(shè)備上。為此，我們提出了微型循環(huán)U-Net(Tiny Recurrent U-Net，TRU-Net)，這是一個(gè)輕量級(jí)的在線推理模型，與當(dāng)前最先進(jìn)的模型性能相匹配。TRU-Net的量化版本大小為362k字節(jié)，小到可以部署在邊緣設(shè)備上。此外，我們將小尺寸模型與一種新的掩碼方法(phase-aware β-sigmoid mask)相結(jié)合，它可以同時(shí)去噪和去everberation。客觀和主觀評(píng)估的結(jié)果表明，我們的模型可以在基準(zhǔn)數(shù)據(jù)集上使用更少的參數(shù)達(dá)到與當(dāng)前最先進(jìn)的模型競(jìng)爭(zhēng)的性能。

關(guān)鍵詞：實(shí)時(shí)語(yǔ)音增強(qiáng)，輕量級(jí)網(wǎng)絡(luò)，去噪，去混響

1 引言

在本文中，我們專注于開(kāi)發(fā)一個(gè)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)模型，該模型適用于現(xiàn)實(shí)世界的應(yīng)用，滿足以下條件：

1、一個(gè)小而快速的模型，可以盡可能減少單幀實(shí)時(shí)因子(RTF)，同時(shí)保持與最先進(jìn)的深度學(xué)習(xí)網(wǎng)絡(luò)的競(jìng)爭(zhēng)性能，

2、一個(gè)可以同時(shí)進(jìn)行去噪和解噪的模型。

為了解決第一個(gè)問(wèn)題，我們的目標(biāo)是改進(jìn)一種流行的神經(jīng)結(jié)構(gòu)(U-Net[1])，它已經(jīng)證明在語(yǔ)音增強(qiáng)任務(wù)中具有卓越的性能[2,3,4]。以往使用U-Net進(jìn)行源分離的方法不僅在頻率維度上應(yīng)用卷積，而且在時(shí)間維度上也應(yīng)用卷積。U-Net的這種非因果性質(zhì)增加了計(jì)算復(fù)雜性，因?yàn)樾枰獙?duì)過(guò)去和未來(lái)幀進(jìn)行額外的計(jì)算來(lái)推斷當(dāng)前的框架。因此，它不適用于需要實(shí)時(shí)處理當(dāng)前幀的在線推理場(chǎng)景。此外，時(shí)間維度使得網(wǎng)絡(luò)計(jì)算效率低下，因?yàn)樵赨-Net的編碼和解碼路徑中相鄰幀之間都存在冗余計(jì)算。為了解決這一問(wèn)題，我們提出了一種適用于在線語(yǔ)音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——微型循環(huán)U-Net (Tiny Recurrent U-Net, TRU-Net)。該體系結(jié)構(gòu)旨在實(shí)現(xiàn)頻率維度和時(shí)間維度計(jì)算的有效解耦，從而使網(wǎng)絡(luò)足夠快，能夠?qū)崟r(shí)處理單個(gè)幀。該網(wǎng)絡(luò)的參數(shù)數(shù)量?jī)H為0.38M，不僅可以部署在筆記本電腦上，還可以部署在移動(dòng)設(shè)備上，甚至可以部署在結(jié)合量化技術(shù)[5]的嵌入式設(shè)備上。TRU-Net的詳細(xì)信息在第2節(jié)中有更多的描述。

接下來(lái)，為了同時(shí)抑制噪聲和混響，我們提出了一種相位感知 B-sigmoid 掩碼 (PHM)。所提出的 PHM 受到 [6] 的啟發(fā)，其中作者建議通過(guò)從三角函數(shù)的角度重用估計(jì)的幅度掩碼值來(lái)估計(jì)相位。 PHM 與 [6] 中的方法的主要區(qū)別在于 PHM 旨在尊重混合、目標(biāo)源和剩余部分之間的三角關(guān)系，因此估計(jì)的目標(biāo)源和剩余部分的總和始終相等到混合物。我們通過(guò)同時(shí)生成兩個(gè)不同的 PHM 將該屬性擴(kuò)展到四邊形，這使我們能夠有效地處理去噪和去混響。我們將在第 3 節(jié)中更詳細(xì)地討論 PHM。

2 Tiny循環(huán)U-Net2.1 PCEN特征作為輸入

語(yǔ)譜圖可能是許多語(yǔ)音增強(qiáng)模型中最流行的輸入特性。每通道能量歸一化(PCEN)[7]結(jié)合了動(dòng)態(tài)范圍壓縮和自動(dòng)增益控制，在應(yīng)用于頻譜圖[8]時(shí)降低了前景響度的方差并抑制了背景噪聲。PCEN也適用于在線推理場(chǎng)景，因?yàn)樗ㄒ粋€(gè)時(shí)間積分步驟，它本質(zhì)上是一個(gè)一階無(wú)限脈沖響應(yīng)濾波器，僅依賴于前一個(gè)輸入幀。在這項(xiàng)工作中，我們采用可訓(xùn)練版本的PCEN。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

TRU-Net 基于 U-Net 架構(gòu)，只在頻率維度上卷積，在時(shí)間維度上不卷積。因此，它可以被認(rèn)為是一個(gè)頻率軸的U-Net，瓶頸層是一維卷積神經(jīng)網(wǎng)絡(luò)(cnn)和循環(huán)神經(jīng)網(wǎng)絡(luò)。編碼器由一維卷積神經(jīng)網(wǎng)絡(luò) (1D-CNN) 塊和頻率維度門(mén)控循環(huán)單元 (FGRU) 塊組成。每個(gè) 1D-CNN 塊都是類(lèi)似于 [9] 的點(diǎn)卷積和深度卷積(就是深度可分離卷積)，除了第一層使用標(biāo)準(zhǔn)卷積操作而沒(méi)有前面的pointwise convolution。為了節(jié)省網(wǎng)絡(luò)大小，我們使用了六個(gè) 1D-CNN 塊，它們使用跨步卷積將頻率維度大小從 256 下采樣到 16。這會(huì)導(dǎo)致可能對(duì)網(wǎng)絡(luò)性能有害的小感受野 (1,750Hz)。為了增加感受野，我們沿頻率維度使用雙向 GRU 層 [10]，而不是堆疊更多的 1D-CNN 塊。也就是說(shuō)，來(lái)自 1D-CNN 塊的 16 個(gè)向量序列被傳遞到雙向 GRU 以增加感受野并沿頻率維度共享信息(譯者：雙向GRU可以增加感受野？頭一次聽(tīng)，表述有問(wèn)題)。我們將此頻率維度雙向 GRU 層稱為 FGRU 層。在 FGRU 層之后使用pointwise convolution、BN 和 ReLU，組成一個(gè) FGRU 塊。我們?yōu)槊總€(gè)前向和后向 FGRU 單元使用了 64 個(gè)hidden size。

解碼器由時(shí)間維度門(mén)控循環(huán)單元 (TGRU) 塊和一維轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò) (1D-TrCNN) 塊組成。編碼器的輸出被傳遞到單向 GRU 層以沿時(shí)間維度聚合信息。我們稱這個(gè) GRU 層為 TGRU 層。一個(gè)pointwise convolution、BN 和 ReLU 在 TGRU 層之后，組成一個(gè) TGRU 塊。我們?yōu)?TGRU 單元使用了 128 個(gè)隱藏維度。最后，使用 1D-TrCNN 塊將 TGRU 塊的輸出上采樣到原始頻譜圖大小。 1D-TrCNN 塊接受兩個(gè)輸入(1. 前一層輸出，2. 來(lái)自同一層次結(jié)構(gòu)的編碼器的跳躍連接)，并按如下方式對(duì)它們進(jìn)行上采樣。首先，使用pointwise convolution將兩個(gè)輸入連接起來(lái)并投影到更小的通道大?。?92 -> 64）。然后，使用一維轉(zhuǎn)置卷積對(duì)壓縮信息進(jìn)行上采樣。與通常的 U-Net 實(shí)現(xiàn)相比，此過(guò)程節(jié)省了參數(shù)的數(shù)量和計(jì)算量，其中兩個(gè)輸入立即連接并使用轉(zhuǎn)置卷積操作進(jìn)行上采樣。請(qǐng)注意，我們沒(méi)有對(duì) 1D-TrCNN 塊使用深度卷積，因?yàn)槲覀兏鶕?jù)經(jīng)驗(yàn)觀察到它在解碼階段使用時(shí)會(huì)顯著降低性能。

編碼器和解碼器中使用的每個(gè)卷積操作后面都是 BN 和 ReLU。我們將卷積配置表示如下，l-th: (k, s, c) ，其中 l, k, s, c 分別表示層索引、內(nèi)核大小、步幅和輸出通道。編碼器和解碼器的詳細(xì)配置如下，Encoder Config= f1-th: (5,2,64), 2-th: (3,1,128), 3-th: (5,2,128), 4-th: (3,1,128), 5-th: (5,2,128), 6-th: (3,2,128)}, Decoder Config = f1-th: (3,2,64), 2-th: (5,2, 64), 3-th: (3,1,64), 4-th: (5,2,64), 5-th: (3,1,64), 6-th: (5,2,10) G。請(qǐng)注意，pointwise convolution操作共享相同的輸出通道配置，除了 k 和 s 均為 1。TRU-Net 概述以及用于 1D-CNN 塊、FGRU 塊、TGRU 塊和 1DTrCNN 塊的參數(shù)數(shù)量如圖 1 所示。

3單級(jí)去噪和去混響

帶混響和噪聲的信號(hào)$x$通常被建模為加性噪聲$y^{(n)}$和混響源$\tilde{y}$的和，其中$\tilde{y}$是房間脈沖響應(yīng)(RIR) $h$與$y$的卷積結(jié)果，如下所示：

$$公式1：x=\tilde{y}+y^{(n)}=h \circledast y+y^{(n)}$$

更具體地說(shuō)，我們可以把$h$分解成兩部分。第一，直接路徑部分$h^{(d)}$，其中不包括反射路徑，第二，反射路徑$h(r)$，如下所示:

$$公式2：x=h^{(d)} \circledast y+h^{(r)} \circledast y+y^{(n)}=y^{(d)}+y^{(r)}+y^{(n)}$$

式中，$y(d)$和$y(r)$分別表示直接路徑源和混響。在這個(gè)設(shè)置中，我們的目標(biāo)是將x分成三個(gè)元素$y^{(d)}, y^{(r)}和y^{(n)}$。短時(shí)傅里葉變換(STFT)計(jì)算得到的每個(gè)對(duì)應(yīng)的時(shí)間頻率表示記為$X_{t,f}, Y_{t,f}^{(d)}, Y_{t,f}^{(r)}, Y_{t,f}^{(n)}$，估計(jì)值用$\hat{·}$表示。

3.1 相位感知$\beta$-sigmoid mask

所提出的相位感知$\beta$-sigmoid掩碼（PHM）是一種復(fù)數(shù)掩碼，能夠系統(tǒng)地將估計(jì)的復(fù)數(shù)值的和，恰好等于混合值，$X_{t,f}=Y_{t,f}^{(k)}+Y_{t,f}^{(-k)}$。PHM 將 STFT 域中的混合$X_{t,f}$以一對(duì)余(one vs rest)的方法分成兩部分，即信號(hào)$Y_{t,f}^{(k)}$和其余信號(hào)的和$Y_{t,f}^{(-k)}=X_{t,f}-Y_{t,f}^{(k)}$，其中索引$k$可以是我們?cè)O(shè)置中的直接路徑源 (d)、混響 (r) 和噪聲 (n) 之一，$k \in {d,r,n}$。復(fù)數(shù)掩碼$M_{t,f}^{(k)}\in C$估計(jì)感興趣源$k$的幅度和相位值。

計(jì)算 PHM 需要兩個(gè)步驟。首先，網(wǎng)絡(luò)用sigmoid函數(shù)$\sigma ^{(k)}(z_{t,f})$乘以系數(shù)$\beta_{t,f}$輸出兩個(gè)掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$的幅度部分，$|M_{t,f}^{(k)}|=\beta_{t,f}·\sigma^{(k)}(z_{t,f})=\beta_{t,f}·(1+e^{-(z_{t,f}^{(k)}-z_{t,f}^{(-k)})})^{-1}$，其中$z_{t,f}^{(k)}$是神經(jīng)網(wǎng)絡(luò)函數(shù)$\psi^{(k)}(\phi)$最后一層的輸出，$\phi$是最后一層之前的網(wǎng)絡(luò)層組成的函數(shù)。$M_{t,f}^{(k)}$用作估計(jì)源$k$的幅度掩碼，其值范圍從0到$\beta_{t,f}$。$\beta_{t,f}$的作用是設(shè)計(jì)一個(gè)接近最優(yōu)值且幅度范圍靈活的掩碼，以便與常用的 sigmoid 掩碼不同，值沒(méi)有介于 0 和 1 之間。另外，因?yàn)閺?fù)數(shù)掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$之和必須組成一個(gè)三角形，所以設(shè)計(jì)一個(gè)滿足三角不等式的掩碼是合理的，即$|M_{t,f}^{(k)}|+|M_{t,f}^{(-k)}|\geq 1$且$|M_{t,f}^{(k)}|-|M_{t,f}^{(-k)}|\leq 1$。為了解決第一個(gè)不等式，我們?cè)O(shè)計(jì)網(wǎng)絡(luò)從最后一層輸出$\beta_{t,f}$，具有如下的 softplus 激活函數(shù)，$\beta_{t,f}=1+softplus((\psi_{\beta}(\phi ))_{t,f})$，其中表示要輸出的附加網(wǎng)絡(luò)層$\beta_{t,f}$。第二個(gè)不等式可以通過(guò)將$\beta_{t,f}$的上界裁剪為$1/|\sigma ^{(k)}(z_{t,f})-\sigma ^{(-k)}(z_{t,f})|$來(lái)滿足。

一旦確定了幅度掩碼，我們就可以構(gòu)造一個(gè)相位掩碼$e^{j\theta_{t,f}^{(k)}}$。給定三角形三個(gè)邊的幅值，我們可以計(jì)算混合物和源$k$之間的絕對(duì)相位差$\theta_{t,f}^{(k)}$的余弦值，$cos(\triangle \theta _{t,f}^{(k)})=(1+|M_{t,f}^{(k)}|^2-|M_{t,f}^{(-k)}|^2)/(2|M_{t,f}^{(k)}|)$。然后，為相位掩碼估計(jì)用于相位校正的旋轉(zhuǎn)方向$\xi_{t,f}\in \{1,-1\}$（順時(shí)針或逆時(shí)針）如下，$e^{j\theta_{t,f}^{(k)}}=cos(\triangle \theta _{t,f}^{(k)})+j\xi_{t,f}sin(\triangle \theta _{t,f}^{(k)})$。使用兩類(lèi)直通 Gumbel-softmax 估計(jì)器來(lái)估計(jì)$\xi_{t,f}$[11]。$M_{t,f}^{(k)}$定義如下，$M_{t,f}^{k}=|M_{t,f}^{(k)}|·e^{j\theta _{t,f}^{(k)}}$。最后，$M_{t,f}^{(k)}$乘以$X_{t,f}$來(lái)估計(jì)源$k$如下，$\hat{Y}_{t,f}^{k}=M_{t,f}^{(k)}·X_{t,f}$。

3.2從一個(gè)四邊形的角度掩碼

因?yàn)槲覀兿Ｍ瑫r(shí)提取直接源和混響源，所以分別使用兩對(duì)PHM。第一對(duì)掩碼，$M_{t,f}^{(d)}$和$M_{t,f}^{(-d)}$，分別將混合物分離為直接源和其余組分。第二對(duì)掩碼，$M_{t,f}^{(n)}$和$M_{t,f}^{(-n)}$，將混合物分離為噪聲和混響源。由于PHM保證了混合組分和分離組分在復(fù)雜STFT域中構(gòu)造一個(gè)三角形，分離結(jié)果可以從一個(gè)四邊形的角度來(lái)看，如圖2所示。在這種情況下，由于三個(gè)邊和兩個(gè)邊角已經(jīng)由兩對(duì)phm確定，所以四邊形的第四個(gè)邊$M_{t,f}^{(r)}$是唯一確定的。

3.3多尺度目標(biāo)

近年來(lái)，多尺度譜圖(MSS)損耗函數(shù)已成功應(yīng)用于一些音頻合成研究中[12,13]。我們不僅將這種多尺度方案納入了頻譜域，而且也納入了類(lèi)似于[14]的波形域。

學(xué)習(xí)最大化余弦相似度可以被視為最大化信號(hào)失真比(SDR)[2]。估計(jì)信號(hào)$\hat{y}^{(k)}\in R^N$與ground truth信號(hào)$y^{(k)}\in R^N$之間的余弦相似損失C定義為：$C(y^{(k)},\hat{y}^{(k)})=-\frac{}{||y^{(k)}||·||\hat{y}^{(k)}||}$，其中$N$表示信號(hào)的時(shí)間維數(shù)，$k$表示信號(hào)類(lèi)型($k\in \{d,r,n\}$)?？紤]切片信號(hào)$y_{\frac{N}{M}(i-1):\frac{N}{M}i}^{(k)}$，其中$i$表示段索引，$M$表示段數(shù)。切信號(hào)，正?；臏?zhǔn)則，每個(gè)切段被認(rèn)為是一個(gè)單元計(jì)算$C$。因此，我們假設(shè)是很重要的選擇一個(gè)合適的區(qū)段長(zhǎng)度單位$\frac{N}{M}$時(shí)計(jì)算$C$。在我們的例子中，我們使用多個(gè)設(shè)置段長(zhǎng)度的$g_i=\frac{N}{M_j}$如下：

$$公式3：\mathcal{L}_{w a v}^{(k)}=\sum_{j} \frac{1}{M_{j}} \sum_{i=1}^{M_{j}} C\left(\boldsymbol{y}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}, \hat{\boldsymbol{y}}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}\right)$$

其中$M_j$為切片段數(shù)。在我們的例子中，$g_i$的集合選擇如下：$g_i\in \{4064, 2032, 1016, 508\}$。

接下來(lái)，譜域上的多尺度損耗定義如下

$$公式4：\mathcal{L}_{s p e c}^{(k)}=\sum_{i}\left\|\left|\operatorname{STFT}_{i}\left(\boldsymbol{y}^{(k)}\right)\right|^{0.3}-\left|\operatorname{STFT}_{i}\left(\hat{\boldsymbol{y}}^{(k)}\right)^{0.3}\right|\right\|^{2}$$

式中$i$為$STFT_i$的FFT大小。與原始MSS損失的唯一區(qū)別是，我們將log變換替換為冪律壓縮，因?yàn)樵谥暗恼Z(yǔ)音增強(qiáng)研究中已經(jīng)成功地使用了冪律壓縮[15,16]。我們使用STFT的FFT大小(1024,512,256)，重疊率為75%。最終損耗函數(shù)的定義是將所有分量相加，如下所示：$L_{final}=\sum_{k\in \{d,r,n\}}L_{wav}^{(k)}+L_{spec}^{(k)}$。

4 實(shí)驗(yàn)4.1 復(fù)現(xiàn)細(xì)節(jié)

由于我們的目標(biāo)是同時(shí)進(jìn)行去噪和去混響，所以我們使用熱室聲學(xué)[20]來(lái)模擬一個(gè)隨機(jī)采樣吸收、房間大小、聲源位置和麥克風(fēng)距離的人工混響。我們使用了2秒的語(yǔ)音和噪聲段，并將它們混合成均勻分布的信噪比(SNR)，范圍從-5 dB到25 dB。輸入特征被用作對(duì)數(shù)幅譜圖、PCEN譜圖和解調(diào)相位的實(shí)/虛部分的通道級(jí)聯(lián)。我們使用了AdamW優(yōu)化器[21]，當(dāng)連續(xù)三個(gè)階段驗(yàn)證分?jǐn)?shù)沒(méi)有提高時(shí)，學(xué)習(xí)速度降低了一半。初始學(xué)習(xí)速率設(shè)置為0.0004。窗口大小和跳大小分別設(shè)置為512 (32ms)和128 (8ms)。

我們還將提出的模型量化為INT8格式，并將模型大小與之前的作品進(jìn)行了比較。我們的量化模型實(shí)驗(yàn)的目的是減少模型尺寸和計(jì)算成本的嵌入式環(huán)境。我們采用[5]中提出的量化數(shù)計(jì)算流程來(lái)量化神經(jīng)網(wǎng)絡(luò)。此外，采用均勻量化并將零點(diǎn)限制為0的均勻?qū)ΨQ量化方案[22]實(shí)現(xiàn)了高效的硬件實(shí)現(xiàn)。在實(shí)驗(yàn)中，神經(jīng)網(wǎng)絡(luò)的所有層次都采用量化的權(quán)值、激活和輸入進(jìn)行處理;只有偏差值以完全精度表示。其他處理步驟，如特征提取和掩碼，是在完全精確的計(jì)算。對(duì)于編碼器層和解碼器層，我們觀察訓(xùn)練過(guò)程中中間張量的尺度統(tǒng)計(jì)。然后，在推理過(guò)程中，我們使用觀察到的最小值和最大值的平均值來(lái)固定激活的尺度。由于每個(gè)時(shí)間步長(zhǎng)內(nèi)部激活的動(dòng)態(tài)范圍較大，只有GRU層在推理時(shí)間內(nèi)被動(dòng)態(tài)量化。

4.2消融實(shí)驗(yàn)

為了驗(yàn)證PCEN、多尺度目標(biāo)和FGRU塊的效果，我們分別使用CHiME2訓(xùn)練集和發(fā)展集對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證。在CHiME2實(shí)驗(yàn)裝置上進(jìn)行消融研究。TRU-Net-A表示所提出的方法。TRU-Net-B表示沒(méi)有多尺度目標(biāo)訓(xùn)練的模型。TRU-Net-C表示沒(méi)有經(jīng)過(guò)PCEN特征訓(xùn)練的模型。TRU-Net-D表示沒(méi)有FGRU塊訓(xùn)練的模型。我們使用最初的SDR[23]來(lái)將我們的模型與其他模型進(jìn)行比較。結(jié)果如表2所示。很明顯，所有提出的方法都有助于性能的提高。注意，F(xiàn)GRU塊對(duì)性能有很大的貢獻(xiàn)。我們還使用CHiME2測(cè)試集將提出的模型與其他模型進(jìn)行了比較。該模型的性能不僅優(yōu)于最近的輕量級(jí)模型Tiny- LSTM (TLSTM)及其修剪版本(PTLSTM)[24]，而且優(yōu)于大型模型[16]。

4.3 降噪結(jié)果

通過(guò)在大規(guī)模DNS-challenge數(shù)據(jù)集[25]和內(nèi)部采集數(shù)據(jù)集上對(duì)模型進(jìn)行訓(xùn)練，進(jìn)一步驗(yàn)證了模型的去噪性能。它在兩個(gè)非盲DNS開(kāi)發(fā)集上進(jìn)行了測(cè)試，1)合成剪輯無(wú)混響(合成無(wú)混響)和2)合成剪輯有混響(合成有混響)。我們將我們的模型與最近的模型[3,4,17,18,19]進(jìn)行了比較，這些模型是在2020年Interspeech dns挑戰(zhàn)賽上提交的。采用6個(gè)評(píng)價(jià)指標(biāo):PESQ、cbac、COVL、CSIG、SI-SDR和STOI[26, 27, 28, 29]。請(qǐng)注意，盡管建議使用ITU-T P862.2寬頻帶版本的PESQ (PESQ2)，但少數(shù)研究使用ITU-T P862.1 (PESQ1)報(bào)告了他們的得分。因此，我們使用兩個(gè)PESQ版本將我們的模型與其他模型進(jìn)行比較。結(jié)果如表1所示。我們可以看到，TRU-Net顯示了最好的性能在合成沒(méi)有混響設(shè)置，而有最小的參數(shù)數(shù)目。在合成混響集，使用比其他模型更少的數(shù)量級(jí)參數(shù)，TRU-Net顯示了競(jìng)爭(zhēng)性能。

4.4 去混響結(jié)果

在包含3000個(gè)音頻文件的WHAMR數(shù)據(jù)集的最小子集上測(cè)試了同時(shí)去噪和去everberation的性能。WHAMR數(shù)據(jù)集由噪聲混響混合和直接源作為地面真實(shí)值組成。試驗(yàn)采用表1中的TRU-Net模型(FP32和INT8)。我們?cè)诒?中展示了我們模型的去噪和去everberation性能，以及在相同的WHAMR數(shù)據(jù)集上測(cè)試的另外兩個(gè)模型。與其他基線模型相比，我們的模型取得了最好的效果，表明了TRU-Net在同時(shí)去噪和去everberation任務(wù)中的參數(shù)效率。

4.5聽(tīng)力測(cè)試結(jié)果

使用表1中提出的模型(TRU-Net (FP32))，我們參加了2021年ICASSP DNS挑戰(zhàn)Track 1[25]。為了獲得更好的感知質(zhì)量，我們將估計(jì)的直接源和混響源混合在15 dB，并應(yīng)用零延遲動(dòng)態(tài)范圍壓縮(DRC)。在2.7 GHz Intel i5-5257U和2.6 GHz Intel i7-6700HQ處理器上，處理單幀(包括FFT、iFFT和DRC)的平均計(jì)算時(shí)間分別為1.97 ms和1.3 ms。TRU-Net的前瞻是0毫秒。聽(tīng)力測(cè)試基于ITU-T P.808進(jìn)行。結(jié)果如表4所示。該模型在各種語(yǔ)音集上進(jìn)行了測(cè)試，包括唱歌的聲音、音調(diào)語(yǔ)言、非英語(yǔ)(包括音調(diào))、英語(yǔ)和情感演講。結(jié)果表明，與基線模型NSnet2[30]相比，TRU-Net具有更好的性能。

5與先前工作的關(guān)系

由于混合信號(hào)相位復(fù)用的次優(yōu)性，近年來(lái)相位感知語(yǔ)音增強(qiáng)技術(shù)受到越來(lái)越多的關(guān)注。雖然這些工作大多試圖通過(guò)相位掩碼或附加網(wǎng)絡(luò)來(lái)估計(jì)干凈相位，但實(shí)際上可以利用余弦定理[31]來(lái)計(jì)算混合物和源之間的絕對(duì)相位差。受此啟發(fā)，[6]提出了一種用于語(yǔ)音分離的絕對(duì)相位差旋轉(zhuǎn)方向估計(jì)方法。

TRU-Net中使用的FGRU和TGRU與[32]中的工作類(lèi)似。他們?cè)陬l率維度和時(shí)間維度上使用雙向長(zhǎng)短期記憶(bi-LSTM)網(wǎng)絡(luò)，并結(jié)合基于2d - cnn的U-Net。不同之處是，我們使用bi-LSTM來(lái)提高[32]的性能，而我們使用FGRU和單向TGRU來(lái)更好地處理在線推理場(chǎng)景，并結(jié)合提出的基于一維cnn(頻率維度)的輕量級(jí)U-Net。

6 結(jié)論

在這項(xiàng)工作中，我們提出了TRU-Net，這是一個(gè)專門(mén)為在線推理應(yīng)用設(shè)計(jì)的高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)。結(jié)合提出的PHM，我們成功地演示了單級(jí)去噪和實(shí)時(shí)去everberation。我們還表明，使用PCEN和多尺度目標(biāo)進(jìn)一步提高了性能。實(shí)驗(yàn)結(jié)果表明，我們的模型與具有大量參數(shù)的最新模型具有相當(dāng)?shù)男阅?。在未?lái)的工作中，我們計(jì)劃在一個(gè)過(guò)參數(shù)化模型上使用現(xiàn)代剪枝技術(shù)來(lái)開(kāi)發(fā)一個(gè)大稀疏模型，在相同的參數(shù)數(shù)量下，它可能比小稠密模型提供更好的性能。

7 參考文獻(xiàn)

[1] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, U-net: Convolutional networks for biomedical image segmentation, in Proc. MICCAI, 2015, pp. 234 241.

[2] Hyeong-Seok Choi, Jang-Hyun Kim, Jaesung Huh, Adrian Kim, Jung-Woo Ha, and Kyogu Lee, Phase-aware speech enhancement with deep complex u-net, arXiv preprint arXiv:1903.03107, 2019.

[3] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss, in Proc. INTERSPEECH, 2020.

[4] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement, in Proc. INTERSPEECH, 2020.

[5] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko, Quantization and training of neural networks for efficient integer-arithmetic-only inference, in Proc. CVPR, 2018, pp. 2704 2713.

[6] Zhong-QiuWang, Ke Tan, and DeLiangWang, Deep learning based phase reconstruction for speaker separation: A trigonometric perspective, in Proc. ICASSP, 2019, pp. 71 75.

[7] YuxuanWang, Pascal Getreuer, Thad Hughes, Richard F Lyon, and Rif A Saurous, Trainable frontend for robust and far-field keyword spotting, in Proc. ICASSP, 2017, pp. 5670 5674.

[8] Vincent Lostanlen, Justin Salamon, Mark Cartwright, Brian McFee, Andrew Farnsworth, Steve Kelling, and Juan Pablo Bello, Per-channel energy normalization: Why and how, IEEE Signal Processing Letters, vol. 26, no. 1, pp. 39 43, 2018.

[9] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam, Mobilenets: Efficient convolutional neural networks for mobile vision applications, arXiv preprint arXiv:1704.04861, 2017.

[10] Kyunghyun Cho, Bart van Merri enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshuas Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proc. EMNLP, 2014, pp. 1724 1734.

[11] Eric Jang, Shixiang Gu, and Ben Poole, Categorical reparameterization with gumbel-softmax, in Proc. ICLR, 2017.

[12] Xin Wang, Shinji Takaki, and Junichi Yamagishi, Neural source-filter-based waveform model for statistical parametric speech synthesis, in Proc. ICASSP, 2019, pp. 5916 5920.

[13] Jesse Engel, Lamtharn (Hanoi) Hantrakul, Chenjie Gu, and Adam Roberts, Ddsp: Differentiable digital signal processing, in Proc. ICLR, 2020.

[14] Jian Yao and Ahmad Al-Dahle, Coarse-to-Fine Optimization for Speech Enhancement, in Proc. INTERSPEECH, 2019, pp. 2743 2747.

[15] Hakan Erdogan and Takuya Yoshioka, Investigations on data augmentation and loss functions for deep learning based speech-background separation. , in INTERSPEECH, 2018, pp. 3499 3503.

[16] Kevin Wilson, Michael Chinen, Jeremy Thorpe, Brian Patton, John Hershey, Rif A Saurous, Jan Skoglund, and Richard F Lyon, Exploring tradeoffs in models for low-latency speech enhancement, in IWAENC, 2018, pp. 366 370.

[17] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, Weighted speech distortion losses for neural-network-based real-time speech enhancement, in Proc. ICASSP, 2020, pp. 871 875.

[18] Nils L Westhausen and Bernd T Meyer, Dual-signal transformation lstm network for real-time noise suppression, in Proc. INTERSPEECH, 2020.

[19] Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, and Bhiksha Raj, Exploring the best loss function for dnn-based lowlatency speech enhancement with temporal convolutional networks, arXiv preprint arXiv:2005.11611, 2020.

[20] Robin Scheibler, Eric Bezzam, and Ivan Dokmani c, Pyroomacoustics: A python package for audio room simulation and array processing algorithms, in Proc. ICASSP, 2018, pp. 351 355.

[21] Sashank J. Reddi, Satyen Kale, and Sanjiv Kumar, On the convergence of adam and beyond, in Proc. ICLR, 2018.

[22] Raghuraman Krishnamoorthi, Quantizing deep convolutional networks for efficient inference: A whitepaper, arXiv preprint arXiv:1806.08342, 2018.

[23] Emmanuel Vincent, R emi Gribonval, and C edric F evotte, Performance measurement in blind audio source separation, IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462 1469, 2006.

[24] Igor Fedorov, Marko Stamenovic, Carl Jensen, Li-Chia Yang, Ari Mandell, Yiming Gan, Matthew Mattina, and Paul N Whatmough, Tinylstms: Efficient neural speech enhancement for hearing aids, in Proc. INTERSPEECH, 2020.

[25] Chandan KA Reddy, Harishchandra Dubey, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, Icassp 2021 deep noise suppression challenge, arXiv preprint arXiv:2009.06122, 2020.

[26] ITU-T Recommendation, Perceptual evaluation of speech quality (pesq): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001.

[27] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[28] Jonathan Le Roux, ScottWisdom, Hakan Erdogan, and John R Hershey, Sdr half-baked or well done? , in Proc. ICASSP, 2019, pp. 626 630.

[29] Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in Proc. ICASSP, 2010, pp. 4214 4217.

[30] Sebastian Braun and Ivan Tashev, Data augmentation and loss normalization for deep noise suppression, in International Conference on Speech and Computer, 2020, pp. 79 86.

[31] Pejman Mowlaee, Rahim Saeidi, and Rainer Martin, Phase estimation for signal reconstruction in single-channel source separation, in Thirteenth Annual Conference of the International Speech Communication Association, 2012.

[32] Tomasz Grzywalski and Szymon Drgas, Using recurrences in time and frequency within u-net architecture for speech enhancement, in Proc. ICASSP, 2019, pp. 6970 6974.

關(guān)鍵詞：

相關(guān)新聞