情感分析

如何用50行代码构建情感分类器

Submitted by huzhenda on Sun, 07/15/2018 - 11:58

情感分析背后的动机 

人类自己无法理解语言是如何被大脑处理的。那么,我们能教一台机器学习我们的语言吗?通过广泛研究,人们已经开发了许多方法来帮助机器理解语言。自然语言处理(NLP)是研究人类语言与计算机交互的领域。自然语言处理的一个子问题是情感分析,即把一个语句分类为积极或消极。把语句分类为积极或消极有什么用呢?以亚马逊网站为例。在亚马逊上,用户可以对一个产品发表评论,说明它是好是坏,甚至可以是中性的。然而,使用人工阅读所有评论并获得客户对产品的总体反馈既昂贵又耗时。再说说我们的机器学习模型。机器学习模型可以通过大量数据进行推断,对评论进行分类。利用这种机器学习模型,亚马逊可以通过客户评论改进其产品,从而为公司带来更多收入。

情感分析并不像看起来那么简单。如果你认为含有「好的」、「很棒」等词的评论可归为积极评论,而含有「坏的」、「苦恼的」等词的评论可归为消极评论,那你需要三思。例如,「完全没有好味道」和「一份好的快餐,但没有什么特别的」分别代表消极和中立的反馈,即使都有「好」字。因此,这项任务可能没有看起来那么简单。接下来让我们看看即将使用的数据。

数据集

我们将使用亚马逊产品评论、IMDB 电影评论和 Yelp 评论来构建情感分析模型。