
March 5, 2021 |  Categories:  情感分析   多模态  



情感是人对客观事物所持的态度。最简单的情感可以分为积极(正向)、消极(负向)、中性,又称为情绪。 此外, 除了中性外, 更多样化的情感又可细分为:喜、怒、忧、悲、恐、惊等。 这些情感构成了人与人之间沟通交流的多样性,同时也包含了丰富的信息, 帮助我们掌握感兴趣对象在特定场景下的状态以及对相关事务的态度。 通过算法模型, 结合具体场景和数据分析特定对象的情感状态, 这就是情感分析


在人的表达和交互过程中, 能够准确的把握相关方的态度可以极大的提升人工智能(AI)产品的体验, 在质检, 交互,风控,舆论监督等方面都有着重要的应用。例如, 在服务行业客户对服务是否满意可以帮助提高企业的服务质量, 提高获客和客户满意度;在电商中用户对某商品及其竞品的喜好是价值极高的信息;在人机交互中掌握会话方的情感状态可以帮助我们适时地采用恰当的话术表达安抚和谅解等, 提升交互体验; 等等。 在现实应用中有非常多的场景都需要情感或者态度的信息, 这时候情感分析算法就为我们提供了这样一种提炼出这些关键信息的途径。


从不同的角度可以把情感分析方法做不同的归纳。 按照对情感的划分方式, 可以分为:情感极性分析、情感类别分析和情感程度分析。 按照对象粒度分, 又有会话级情感分析、句子级情感分析, 以及实体级情感分析等。 具体因所处理的场景和问题而不同。



从信息来源的角度来看,可以有文字、 声音、图像、味觉、触觉等等 。 我们把每一个这些信息的来源域称为一个模态。

我们之所以划分出不同的模态, 首先是因为不同场景下可以接触到的信息不同,其次是不同模态提供的信息往往不同, 最重要的是对不同模态的信息需要采用的处理和建模方式也不同。 简单情况下,我们可以仅通过单一的模态就可以得到一个对情感态度的判断, 例如一段评价文字, 一通对话录音,一段评论视频等。 自然地, 我们也可以结合多个模态的数据并将其统一建模, 这就是多模态方法

简单来讲, 多模态方法的核心驱动就是: 更多的信息来源可以帮助我们做出更优的决策。


对于情感分析来说, 情感表达可以来源于文字、音频、图像, 结合两种及以上模态建模情感分析, 就是多模态情感分析方法。 由于不同模态的信息在数据形式和处理方式上有很大差别, 在统一模型中多增加一种模态信息虽然可能带来潜在的建模效果提升, 但同时也增加了建模的复杂度和难度。 例如, 通过一句话的文字和对应的录音建模时, 需要先将字符串和音频分别用两种截然不同的处理方式量化为模型可接受的表征。

多模态模型策略在情感分析任务中是十分必要的。首先, 很多时候仅通过文本或者语音很难判准确判断出情感状态, 一个极端例子是反讽。 反讽往往结合中性或者积极的文本内容和与内容不匹配的音频表达来完成一个消极(负向)的情感表达。 这种情形仅靠单模态很难从根本上解决。其次,单模态模型容易受噪声影响而导致效果问题, 例如由ASR转写的文本, 上游ASR出现的错误很多时候会对下游分类任务产生较大影响。因此,在实际应用中有一个稳定强大的模型就要求我们采用多模态的建模方法。

单模态 vs 多模态:方法与挑战

情感本身是一种复杂的信息体现, 对情感建模中应用不同的模态信息有着不同的处理方法及对应的挑战, 下面简单介绍一下目前通用的一些建模方法及它们所存在的问题。



得益于丰富的文本数据来源,文本模型是最常用的情感分析处理方法, 通常的任务是对一句话的文本进行情感分类。 主要有以下常用的方法。


此方法是基于跟情感分类相关的关键词,通常结合目标场景预先建立维护一个情感关键词的词典,由关键词的情感汇总判断出句子的情感, 是一种自下而上的方法。

一种最简单的实现方法是, 设定情感词典内容为情感关键词情感类别的键值关系,如果输入字符串中包含有一个或多个词典中的关键词, 则根据情感词典得到这些关键词对应的情感类别,最终汇总多个关键词的情感从而得到对这一句话的情感判断。

稍加复杂的算法设计通常维护的情感词典内容为对常见字、词的情感打分及对应权重, 最终综合一句话中的所有字词打分并通过其权重加和来得到句子级别的情感分数及判断。 这种方法的词典覆盖更广,效果更优。



自从深度学习在自然语言处理领域蓬勃发展以来, 基于深度学习的情感分析方法较之前的情感词典方法在效果和应用方面有了很大的提升。按照常用的网络结构主要有基于卷积神经网络(CNN)和基于循环神经网络(RNN)方法。

基于CNN的深度学习文本分类模型的代表是TextCNN, 它将输入的字符串转化为对应词向量后, 经过多个不同kernel size(2,3,4)的单层CNN提取n-gram词袋特征, 通过max-pooling池化将得到的特征进行汇总并转化为统一长度, 最后通过全连接层进行分类输出。

基于RNN的深度学习文本分类模型, 通常用LSTM做为基础模型,用双向或多层LSTM作为特征提取器,最终输出特征选择LSTM最终特征或者由每一个token的输出聚合得到, 后接一个或多个全连接层得到最终分类结果。


近年来, 基于Transformer的NLP大型预训练模型在多个下游任务上超越已有的经典深度学习模型,包括文本分类。借助BERT等的在大规模数据上预训练的泛化优势,将其做为上游模型,结合CNN/LSTM做下游分类,效果往往会有提升。

X-BERT: eXtreme Multi-label Text Classification with BERT | Semantic Scholar


相对于离散的文本, 音频信号输入为近似连续的数值, 通常需要做预处理将音频文件转化为频谱, 具体步骤大致为: 分帧-加窗-STFT-转化梅尔频谱, 得到一个TxD维度的特征,其中T跟时间长度有关, D维特征长度。

音频输入由于其序列化的特点, 通常也有基于CNN/RNN的方法,不在赘述。 此外还有基于CRNN及CNN+Attention的方法。


CRNN模型融合CNN及RNN两种结构做特征提取, 综合了CNN的局部特征提取及降采样功能和RNN全局序列特征融合的特点,得到更优的特征做下游分类任务。

CNN + Attention模型

音频频谱的另外一个特点是它有两个维度, 分别是时间维度和频率维度。 CNN + Attention方法就是通过CNN分别沿这两个维度做卷积提取对应特征、压缩维数后,再由Attention模块融合这两个角度的特征, 最终由全连接分类层输出结果。


多模态模型的核心任务是最大化发挥模态融合的优势完成建模。 例如通过构建语音+文本的双模态模型, 我们希望这样一个双模态模型效果至少不比同量级的单模态模型差, 达到1 + 1 > 1的效果。下面简要介绍现有的模态融合方法:

提前融合(early fusion)

Early fusion方法是将不同模态的输入在模型浅层完成融合, 相当于将不同单模态的特征统一到同一个模型输入参数空间。 融合后的特征再输入到单个模型当中完成特征提取和预测。
提前融合的出发点是想要模型在对特征建模初期就同时考虑多个模态的输入信息, 这一点是合理的。 但是由于不同模态本身参数空间的差异性,在输入层统一多个不同参数空间的方法并不能达到预期效果, 在实际中往往很少被使用。

推迟融合(late fusion)

Late fusion方法尝试通过模型来解决参数空间不同统一的问题, 首先对不同模态的输入数据分别用不同的网络结构进行建模和特征提取, 最终在分类层前将不同模态提取到的特征进行融合, 并依赖梯度反向传播统一化不同模态的特征到同一特征空间, 最后在这个新的空间上做简单的分类预测。推迟融合由于其简单的实现方式和不错的效果往往应用较普遍。

多阶段融合(multi-stage fusion)

推迟融合虽然通过网络本身在分类层前将不同模态特征映射到统一参数空间 ,但是仅仅在高级特征层面对不同的模态特征进行了融合, 却去了在特征提取阶段不同特征之间的相互关联信息。

Multi-stage fusion为了解决以上问题, 在多个阶段对特征进行融合操作。 通常先通过简单的的网络结构将不同模态参数空间统一化, 在这个统一化的参数空间上完成初级模态信息融合。 融合后的特征再继续经过后续深度特征提取网络进行进一步模态相关的深层特征提取并融合, 不同模型结构分支提取到的特征在分类层之前做最终的融合后进行分类预测。

多阶段融合依靠网络和梯度传播来完成特征空间的统一和特征深层相互作用的功能,既保留了用不同模型结构处理不同模态分支的能力, 又自然地完成了不同模态信息融合的目的, 对提取到强大特征更有优势。 缺点是模型结构相对复杂, 往往会设置多个损失函数,分阶段调优复杂。


提取到不同模态特征后,如何合并它们也是一个需要在建模时解决的问题。 常用的特征融合方法大致有一


简单的融合可以通过特征拼接来实现, 其假设为输入的不同模态特征已经被统一在了同一参数空间上。 此假设由梯度反向传播来实现。简单的特征融合并没有考虑特征之间的相互作用增益, 依赖下游分类网络来融合模态信息。


由于输出层网络参数有限, 简单模态特征拼接可能不足以达到很好的融合效果。 于是通过引入注意力机制, 在模型融合时显式地增加模型相互作用,将经过注意力的打分后融合的特征输入到分类网络中, 以达到充分利用模态间信息增益的目的。

注意力机制又有多种实现方法, 比如带有指向性的注意力(如音频-->文本), 交叉注意力(音频-->文本 + 文本-->音频), 自注意力([音频+文本] --> [音频+文本])等等, 在此不再赘述其细节。


在解决实际应用问题时, 现有的深度学习情感分析方法存在着以下问题:

模型跨领域问题: 在某一特定场景(如保险客服)下训练的模型往往不能直接用在其它场景(如运营商客服), 这是由于情感表达本身依赖于场景, 在一个场景下的表达可能在另外一个场景下蕴含着不同的情感态度, 同时不同场景对情感态度判读的界定也会有差别。

标注数据成本高: 多模态模型要求不同模态的数据成对给出, 并且在标注过程种综合考虑各模态表达的信息。这种数据获取的难度和标注成本也对多模态情感模型的实际应用有着影响。


在音频 + 文本双模态情感分析任务下, 笔者也做了深入研究, 分别从有监督模型(icassp2021论文录用)和无监督迁移方法上尝试优化和应对上文中提到的挑战。 限于这篇文章只是入门介绍, 在此就不在阐述细节, 具体的相关技术介绍将在单独的博文中分享。

(原创文章,未经允许禁止转载,  julianlu@wezhuiyi.com)

