第2章 面向产品评论分析的短文本情感主题模型

2.1 引言

近年来,随着社交媒体的兴起,人们彼此之间越来越多地通过网络分享意见、见解、经验和观点。以微博为例,人们通常喜欢在个人微博中发表对事情的看法,表达对某件事、某件商品的评价。以在线购物为例,由于消费者无法亲身观察和查验产品质量,来自其他消费者对该产品的评价就成为在线消费决策不可或缺的信息。完全依靠人工来分析社交媒体信息中的用户观点信息既费时又费力,对此,观点挖掘技术从自动分析处理信息的角度提供了一种解决方案。观点挖掘的目标是检测出文本中针对某一话题所表达的观点(情感)信息,分析的粒度可以分为文档、句子和元素级三个级别[2][13][14][96]

如第一章所述,弱监督主题学习和文档级情感面临着文本稀疏问题。

学者虽然提出了一些解决方案,但在处理社交媒体数据时,还需要面对主题情感联合建模中的文本稀疏问题。事实上,社交媒体中大部分观点文本都具有鲜明的观点和简洁的表达,特别是微博和用户评论。微博自产生时其长度就被限制为短短的140个字,随着移动互联网终端的广泛使用,评论文本的长度也变得越来越短[94]

基于主题建模的很多研究工作已经注意到文本稀疏现象,一种解决方案是将短文本连接成较长的伪文档,使用伪文档作为模型的输入来采样生成过程[84-85];另一种方案则基于另一个假设,即一段短文本仅描述一个唯一的讨论话题[101-102]。此外,最近的一项研究工作[103]中,采用一次采样一个词对的方式来建模词对在语料中的共现。上述这些研究都只是对短文本中的主题进行建模。在本书的方法中,则是通过对全局的词对生成过程建模来进行情感极性和主题的联合检测。

在本书的工作中,集中研究文档级别的情感分类和主题建模,提出一个弱监督的词对情感主题模型(Word-pair Sentiment-Topic Model, WSTM)。该模型是一个概率混合模型,通过直接对全局范围内的词对(word-pair)生成过程建模来学习短文本中的情感和主题信息。一个词对是指在特定的上下文中的两个无序的共现词。具体而言,本书先将整个语料看成一个共现词对集合(a bag of co-occurred word-pairs),然后对共现词对集合的生成过程进行建模,即通过一个混合模型依次采样语料中的每一个词对,该混合模型包括一组主题语言模型和一组情感语言模型,通过学习WSTM模型,得到语料级别的情感—主题组成信息和全局的情感主题分布信息,进而推导出每个文档的情感分布和主题分布。本书在两个评论文本数据集上对提出的方法进行了评估。实验结果表明,WSTM能够准确地发现文本中的主题并检测出观点极性,检测准确率明显高于已知的最新的同类方法。