已标记的文章(2024.7至今)
  • SS: 有关基本算法或原理的文章,建议吃透
  • S: 前沿顶刊文章,提出通用改进思路或算法创新
  • A: 前沿顶刊文章,对某一问题提出针对性改进方法,但存在局限性或改进空间
  • B: 非顶刊文章,可以参考
  • C: 参考价值一般的文章
  • O: 开源文章
Paper

论文记录2

论文名[出处]模型名任务核心技术突出优势与存在问题比对模型数据集评价指标
(BO)Pre-training Feature Guided Diffusion Model for Speech Enhancement[arxiv-2024.6.14] FUSE语音增强创新点1:使用VAE提取隐空间特征,减少训练量
创新点2:使用预训练声学模型(BEATs)提取特征,并作为DDIM的条件项,引导扩散模型
创新点3:将训练好的VAE-Decoder权重冻结,接在DDIM之后
文中明确指出扩散模型的性能、效率、训练步骤和推理时间都阻碍了它们在语音增强中的表现,该方法主要是针对效率的改进
使用DDIM确实可以有效减少采样步骤,不知道SDE是否有对应的方法
STCN/CDiffuse/DVAE/SGMSE/SGMSE+/MetricGAN+/Conv-TasNetWSJ0-CHiME3/VB-DemandPOLQA
PESQ
ESTOI
SI-SDR
SI-SIR
SI-SAR
DNSMOS
(BO)Universal Speech Enhancement with Score-based Diffusion[ICLR 2023] UNIVERSE广义语音增强模型由生成器和调节网络组成(图1)。生成器网络由一个类似UNet的结构和中间的门控循环单元(GRU)组成。其模型结构经过了多重改进,最终选用了具有多头潜变量损失的条件网络参数量很大 189M
模型表现高度依赖数据集质量
训练集似乎是自制16kHz音频
测试集VCTK-Demand
COVL
STOI
WARP-Q
SESQA
COMP
(A+O)A Variance-Preserving Interpolation Approach for Diffusion Models With Applications to Single Channel Speech Enhancement and Recognition[TASLP 2024.6.12] VPIDM语音增强/ASR预处理这个思路真的很妙!
1. 抛弃使用方差爆炸插值扩散模型VEIDM(SGMSE其实就是个典型的VEDIM),转而使用保方差插值扩散模型VPIDM
2. VEDIM去噪分数匹配的得分函数由插值变量构成,而不是完全干净语音X0
3. VEDIM的人工神经网络ANN估计并不准确,因此需要矫正器,而VPIDM只需要25个迭代步且无需矫正器
4. 在处理原始噪声语音时,人工神经网络(ANN)往往首先从噪声中估计出干净信号,然后再推导出高斯成分。虽然这种方法更简单,但可能会削弱ANN有效学习整个扩散过程的能力。VPIDM可以看作是在VPDM上应用插值方案。当没有目标噪声或插值系数为零时,VPIDM简化为VPDM,因此将VPDM定位为更广泛的VPIDM框架中的一个特例。
由于VEDIM的最终扩散结果实际上保留了初始干净语音的确定性信息,而实际推理时又使用带噪失真语音作为初始值,这样不可避免的存在初始误差

缺点:
1. 其把语音噪声完全假设为加性噪声,所做的插值也完全是线性插值。
2. 噪声淹没和确定性恢复是通过定制递增和递减函数实现的,这样有些不够严谨
MP-SENet/MetricGAN+/NCSN++/SGMSE(VEIDM)VB-Demand
DNS
CHiME-4
PESQ
ESTOI
CSIG
CBAK
COVL
(B)Stimulating Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling[arXiv-2024.4.15] DMID图像去噪提及了用GAN作去噪的缺点。以及使用无条件扩散模型解决线性图像恢复问题(y=Hx+n)
扩散模型作为高斯去噪处理器很优秀,但针对不遵循高斯分布的真实世界噪声则难以处理,为此其改进了噪声变换技术NN
通过多次
推断,使用预训练扩散模型生成多个去噪图像。最后,采用集成方法减少失真。
可惜是用DDIM做的
(C)Deep neural network and noise classi cation-based speech enhancement[TASLP 2018.11.1]语音增强提出可以训练高斯混合模型GMM对加噪音频分类,通过多个高斯分布的加权和来表示数据分布的概率密度函数。判断噪声类型一般使用无语音帧作为输入,而无语音帧的判断是使用STFT熵H(t)来进行的,熵H(t)在语音缺失帧中具有更高的值。开始帧通常被认为是非语音帧。用开始帧的平均熵作为阈值来区分无语音帧和语音帧。这个思路或许可以采用文中将噪声分为6类:
Babble——人声密集的公共场所噪声
White——高斯白噪声
f16——航空环境噪声
hfchannel——无线电通信中的信道噪声
Pink——低频能量较高的噪声,如风声或雨声
Factory1——工业环境噪声
(BO)TIME SERIES DIFFUSION IN THE FREQUENCY DOMAIN[arxiv-2024.8.8]时间序列生成提出了频域扩散模型,将扩散方程扩展到了频域形式(主要通过将布朗运动改造为镜像布朗运动),或许有参考性在语音任务中是否适用还待测试
9.9更新:看了一下源码似乎只是对数据进行了dft变换,pass
(SR)A Survey on Diffusion Models for Time Series and Spatio-Temporal Data[arxiv-2024.6.11]时间序列分析非常好的文献,将目前针对时间序列分析的所有扩散模型
在模型方面分为非条件模型和条件扩散模型(更细分为基于概率的扩散模型DDPMs和基于分数的扩散模型ScoreSDEs)
在研究任务方面分为预测和生成两类(预测任务如回归和异常检测,生成任务如序列插补和增强)
在针对数据方面分为时间序列和时空数据
通过以上几种分类,可以将到目前的所有扩散模型进行汇总分析,分析了扩散模型在各类生成模型中的优势,并对未来研究方向进行展望
研究前景大致可以分为:
增强可扩展性和效率
改善鲁棒性和泛化能力
改进先验知识对生成的引导
进行多模态数据融合
大型语言模型与扩散模型集成
(BO)DOSE: Diffusion Dropout with Adaptive Prior for Speech Enhancement[NerulIPS 2024]语音增强其基础结构基于DiffWave
其提到基于扩散的语音增强(SE)方法主要分为两大类:
(1) 设计特定的条件注入策略,一般通过设计特殊的SDE(漂移项)来实现
(2) 利用辅助条件优化器生成语音。一般通过设计特殊网络结构实习
提到使用条件模型进行语音增强使可能出现的条件崩溃现象
总结:DOSE 具有三个重要优势:(1)通过完全舍弃 xt,使条件因素 y 成为“主角”,自动增强生成样本与条件因素之间的一致性。(2)通过使用修改后的训练目标对模型进行训练,DOSE 不仅在处理高斯噪声(xt→x0)时表现出色,还能够应对各种非高斯噪声(y→x0​)。(3)DOSE 效率很高(仅需2步),比现有的扩散增强模型更快。DiffWave/DiffuSE/CDiffuSE/SGMSE/DR-DiffuSEVB-Demand
CHiME-4
STOI
PESQ
CSIG
CBAK
COVL

(BO)Pre-training Feature Guided Diffusion Model for Speech Enhancement

(BO)Universal Speech Enhancement with Score-based Diffusion

(A+O)A Variance-Preserving Interpolation Approach for Diffusion Models With Applications to Single Channel Speech Enhancement and Recognition

(B)Stimulating Diffusion Model for Image Denoising via Adaptive Embedding and Ensembling

(C)Deep neural network and noise classi cation-based speech enhancement

(BO)TIME SERIES DIFFUSION IN THE FREQUENCY DOMAIN

(SR)A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

(BO)DOSE: Diffusion Dropout with Adaptive Prior for Speech Enhancement

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇