新闻是有分量的

ICASSP 2018 | 阿里巴巴论文提出Advanced LSTM:关于更优时间依赖性刻画在情感识别方面的应用

2018-04-18 09:01栏目:简讯

原标题:ICASSP 2018 | 阿里巴巴论文提出Advanced LSTM:关于更优时间依赖性刻画在情感识别方面的应用

选自arXiv

作者:陶菲/Fei Tao、刘刚/Gang Liu

机器之心编译

论文:《高级长短期记忆网络:关于更优时间依赖性刻画在情感识别方面的应用》(Advanced LSTM: A Study about Better Time Dependency Modeling in Emotion Recognition)

ICASSP 2018 | 阿里巴巴论文提出Advanced LSTM:关于更优时间依赖性刻画在情感识别方面的应用

论文地址:https://arxiv.org/pdf/1710.10197.pdf

摘要:长短期记忆网络(LSTM)隐含了这样一个假设,本层的现时状态依赖于前一时刻的状态。这种「一步」的时间依赖性,可能会限制 LSTM 对于序列信号动态特性的建模。在这篇论文里,针对这样的一个问题,我们提出了高级长短期记忆网络(advanced LSTM (A-LSTM)),利用线性组合,将若干时间点的本层状态都结合起来,以打破传统 LSTM 的这种局限性。在这篇文章中,我们将 A-LSTM 应用于情感识别中。实验结果显示,与应用传统 LSTM 的系统相比,应用了 A-LSTM 的系统能相对提高 5.5% 的识别率。

研究背景


LSTM 现在被广泛的应用在 RNN 中。它促进了 RNN 在对序列信号建模的应用当中。LSTM 有两个输入,一个来源于前一层,还有一个来源于本层的前一个时刻。因此,LSTM 隐含了这样一个假设,本层的现时状态依赖于前一时刻的状态。这种「一步」的时间依赖性,可能会限制 LSTM 对于序列信号动态特性的建模(尤其对一些时间依赖性在时间轴上跨度比较大的任务)。在这篇论文里,针对这样的一个问题,我们提出了 advanced LSTM (A-LSTM),以期打破传统 LSTM 的这种局限性。A-LSTM 利用线性组合,将若干时间点的本层状态都结合起来,因此不仅可以看到」一步「以前的状态,还可以看到更远以前的历史状态。

在这篇文章中,我们把 A-LSTM 应用到整句话层级(utterance level) 上的情感识别任务中。传统的情感识别依赖于在整句话上提取底端特征(low level descriptors) 的统计数据,一号站平台,比如平均值,方差等等。由于实际应用中,整句话中可能会有一些长静音,或者是一些非语音的声音,这种统计数据就可能不准确。在这篇论文中,我们使用基于注意力模型(attention model) 的加权池化 (weighted pooling) 递归神经网络 (recurrent neural network) 来更有效的提取整句话层级上的特征。

高级长短期记忆网络


A-LSTM 利用线性组合,将若干时间点的本层状态都结合起来。这其中的线性组合是利用与注意力模型 (attention model) 类似的机制进行计算的。具体公式如下:


Fig 1 中 C'(t) 即为前面若干时间状态的线性组合。这个线性组合以后的时间状态将被输入下一时间点进行更新。可以想象,每次的更新都不只是针对前一时刻,而是对若干时刻的组合进行更新。由于这种组合的权重是有注意力模型控制,A-LSTM 可以通过学习来自动调节各时间点之间的权重占比。如果依赖性在时间跨度上比较大,则更远以前的历史状态可能会占相对大的比重;反之,比较近的历史状态会占相对大的比重。

ICASSP 2018 | 阿里巴巴论文提出Advanced LSTM:关于更优时间依赖性刻画在情感识别方面的应用

Fig 1 The unrolled A-LSTM

加权池化递归神经网络

ICASSP 2018 | 阿里巴巴论文提出Advanced LSTM:关于更优时间依赖性刻画在情感识别方面的应用

Fig 2 The attention based weighted pooling RNN.


在这篇论文中,我们使用基于注意力模型的加权池化递归神经网络来进行情感识别(见 Fig 2)。这一神经网络的输入是序列声学信号。利用注意力模型,我们的神经网络可以自动调整各个时间点上的权重,然后将各个时间点上的输出进行加权平均(加权池化)。加权平均的结果是一个能够表征这一整串序列的表达。由于注意力模型的存在,这一表达的提取可以包含有效信息,规避无用信息(比如输入序列中中的一些长时间的静音部分)。这就比简单的计算一整个序列的统计数值要更好(比如有 opensmile 提取的一些底端特征)。为了更好的训练模型,我们在情感识别任务之外还添加了两个辅助任务,说话人识别和性别识别。我们在这个模型当中使用了 A-LSTM 来提升系统性能。

实验


在实验阶段,我们使用 IEMOCAP 数据集中的四类数据(高兴,愤怒,悲伤和普通)。这其中一共有 4490 句语音文件。我们随机选取 1 位男性和 1 位女性说话人的数据作为测试数据。其余的数据用来训练(其中的 10% 的数据用来做验证数据)。我们采用三个衡量指标,分别为无权重平均 F-score(MAF),无权重平均精密度(MAP),一号站平台,以及准确率(accuracy)。