近日,我校计算机学院“智能信号处理组”(GISP)与悉尼科技大学、萨里大学及哈尔滨工业大学合作最新研究成果“时间加权频域音频表示与GMM估计异常声音检测”和基于机器ID的音频表示与对比学习预训练的异常声音检测”入选音频信号处理领域顶级国际会议ICASSP 2023。计算机科学教学与研究中心关键为第一作者、哈尔滨工程大学为第一单位。
此次入选大会的两项异常声音检测合作研究成果受到专家高度赞誉,这是GISP课题组研究成果连续第四年被ICASSP录用。此外,GISP与悉尼科技大学、萨里大学合作发表在信号处理领域权威期刊IEEESignal Processing Letters上的一项音频语意概述工作也收到了ICASSP大会的IEEE信号处理学会(SPS)期刊论文演示报告邀请。
国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing,ICASSP)由IEEE主办,被业界公认为的信号处理领域顶级会议,在音频信号处理方向最具盛誉与学术影响力。作为音频信号处理领域的重要问题,异常声音检测(Anomalous Sound Detection, ASD)旨在根据机器设备运行声音自动判断机器运行状态是否异常,以实现机器设备的故障检测及预测性维护,该研究在工业生产领域具有广阔应用前景。GISP课题组近年来致力于在该方向攻坚克难,本次录用两篇论文的研究工作得到评审专家“耳目一新(refreshing)”、“优雅(neat)”,以及“实验扎实(solid experiments)”评价。
基于时间加权频域音频表示及GMM估计异常声音检测
GISP本次录用两篇会议论文针对异常声音检测领域存在的检测稳定性差、个体性能差异、检测效率低等问题,从声学特征表示角度出发,给出创新性解决方案。“时间加权频域音频表示与GMM估计异常声音检测”(Time-weighted Frequency Domain AudioRepresentation with GMM Estimatorfor Anomalous Sound Detection),提出了结合基于时域加权频率特征表示的高斯混合模型(TWFR-GMM),以解决现有基于频率统计的音频特征表示的高斯混合模型(GMM)对无监督异音检测任务中不同机器类型的表现参差不齐问题;“基于机器ID的音频表示与对比学习预训练的异常声音检测”(Anomalous Sound DetectionUsing Audio Representation with Machine ID based Contrastive Learning Pretraining),针对现有方法的音频特征表示难以有效区分不同设备正常/异常的问题,提出了基于元数据信息的对比学习预训练策略,并构建了一个用于异音检测的两阶段方法。
基于机器ID的音频表示与对比学习预训练的异常声音检测T-SNE对比示例图
GISP在音频语意概述研究方向的一项最新成果“基于局部注意力信息感知辅助解码的音频语意概述”(Local Information Assisted Attention-Free Decoder for Audio Captioning),被本次大会邀请进行IEEE SPS期刊论文现场报告。该工作第一作者为2020级硕士研究生肖飞扬,关键老师为通讯作者,论文于2022年7月发表在以创新度高著称的信号处理领域权威国际期刊IEEE Signal Processing Letters。研究中提出了一种基于局部注意力机制的解码器(LocalAFT)结构,用于有效捕获短时音频事件,提升音频字幕预测精度,该项成果在DCASE 2022挑战任务6a取得了国际第六名。同时,肖飞扬同学也是本次所接收的“基于机器ID的音频表示与对比学习预训练的异常声音检测”工作的第二作者。
基于LocalAFT方法的音频字幕生成示例
智能信号处理组自2020年成立以来,致力于人工智能技术驱动的信号处理基础理论及应用研究,坚持“面向学术前沿,以实际应用需求为导向,以高素质人才培养为目标”,与国内外学术界和工业界广泛合作。研究成果相继发表于IEEE SPL、IEEE TMM、IEEE GRSL、IEEE IGARSS、IEEEICASSP、EUSIPCO等信号处理领域权威期刊会议。
近年来,计算机学院大力倡导学术交流与国际合作,积极推动学科专业交叉融合建设,依托学科优势,促进以人工智能技术为代表的新技术跨领域融合研究。本次高水平研究成果发表体现了计算机学院在学科交叉融合建设的成效,也反映了学院在人工智能及声学信号处理领域的研究实力,促进了国际交流合作、扩大了我校的国际影响力。