近日,国际工程领域机构Advances in Engineering (AIE) 对重点实验室情感计算团队的最新研究成果——“Speech Emotion Recognition Based on Convolutional Neural Network with Attention-based Bidirectional Long Short-term Memory Network and Multi-task Learning”进行专题报道。AIE所报道的论文是由国际专家顾问组选出,方向包括通用工程、电子、机械、土木、纳米、材料、生物医学工程等,中选率为以上领域发表论文总数的1‰。AIE拥有广泛的读者群,每月的阅读量超过75万次。
该研究提出基于带注意力机制双向长短期记忆网络和多任务学习的语音情感识别方法。为了反映语音信号的动态特性和增加输入特征的多样性,通过计算Log-Mel频谱图的速度和加速系数,构建模型的三通道输入。利用卷积神经网络提取浅层特征,并输入到基于注意力机制的双向长短期记忆网络来学习深层特征。通过情感、效价-唤醒维度、性别的多任务学习,实现不同说话人的情感识别,增强了语音情感识别模型的泛化能力。
据悉,该研究属于国家自然科学基金面上项目“面向人机自然交互的小样本非特定说话人语音情感识别研究”(61976197)的研究内容之一。我院刘振焘副教授带领的情感计算团队在语音情感识别方面取得较大进展,在语音情感特征工程、深度学习模型构建等方面提出多种有效方法。研究成果发表在IEEE Transactions on Multimedia,Information Sciences,Applied Acoustics等国际人工智能重要期刊上。上述研究成果可以应用在精神健康诊断与监测、电话客服服务质量监测、智能人机交互等领域,具有广阔的应用前景和发展潜力。
新闻链接:https://advanceseng.com/speech-emotion-recognition-convolutional-neural-network-attention-bidirectional-long-short-term-memory-network-multi-task-learning/
论文链接:https://www.sciencedirect.com/science/article/pii/S0003682X22005527