作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.
鲁道夫Eremyan的头像

鲁道夫Eremyan

Rudolf在NLP和机器学习方面有多年的经验. 他的基于人工智能的工具被格鲁吉亚最大的公司使用,比如TBC银行.

以前在

Staude资本
Share

人们在使用论坛, 社交网络, blogs, 和其他平台分享他们的观点, 从而产生了大量的 data. 与此同时, 用户或消费者想知道该买什么产品或看什么电影, 所以他们也会阅读评论并尝试做出相应的决定.

手动收集用户生成的数据信息非常耗时. 这就是为什么越来越多的公司和组织对自动情感分析方法感兴趣 帮助他们理解.

什么是情绪分析?

情感分析是研究人们的观点和情绪的过程, 一般使用语言线索. 乍一看,它只是一个 文本分类 problem, 但如果我们深入研究, 我们会发现,情感分析中存在许多具有挑战性的问题,这些问题严重影响了情感分析的准确性. 下面,我将探讨您在工作中面临的一些陷阱 一般情感分析问题:

  1. 讽刺和讽刺
  2. 否定的类型
  3. 词汇歧义
  4. 多极化

我们将浏览每个主题,并尝试理解所描述的问题如何影响情感分类器的质量,以及可以使用哪些技术来解决这些问题.

情感分析挑战No. 1:讽刺检测

在讽刺文本中,人们用积极的词语表达他们的消极情绪. 这一事实使得讽刺很容易欺骗情绪分析模型,除非它们是专门设计来考虑其可能性的.

讽刺最常出现在用户生成的内容中,比如Facebook评论, tweets, etc. 如果不能很好地理解情境,情感分析中的讽刺检测是很难完成的, 具体主题, 还有环境.

这不仅对机器来说很难理解,对人来说也很难理解. 讽刺句子中词汇的不断变化给情感分析模型的成功训练带来了困难. 常见的话题, 利益, 历史信息必须在两个人之间共享,以使讽刺成为可能.

首先,让我们从的角度来看讽刺 语言学在美国,讽刺被广泛研究. In 这是这个领域被引用最多的研究之一,作者伊丽莎白·坎普提出了以下四种类型的讽刺:

  • 命题性:讽刺是一个非情感命题,但却隐含着情感.
  • 隐含的:讽刺在单词和短语本身的形式中有一种隐含的不协调的情绪.
  • 类似前缀:类似短语提供了一个隐含的否认所提出的论点.
  • 言外行为:有助于讽刺的非言语行为(肢体语言、手势).

Elisabeth Camp's four types of sarcasm: Propositional ("This looks like a perfect plan!"), Embedded ("I love being ignored."), Like-prefixed ("Like those guys believe a word they say."), and Illocutionary "(shrugs shoulders) Very helpful indeed!".

坎普的研究发表于2012年. 2017年,斯坦福大学的研究人员宣布了他们自己非常有趣的研究 “花两个小时写一篇论文很有趣!:在文本的数字部分中检测讽刺 他们谈到了另一种讽刺叫做 数值讽刺. 数字讽刺在社交网络中非常常见. 它背后的想法与数值的变化有关,数值的变化会影响文本的极性. 例如:

  1. “这款手机的备用电池长达38个小时.”(Non-sarcastic)
  2. “这款手机有2小时的备用电池.”(讽刺)
  1. “外面华氏25度,我好热.”(Non-sarcastic)
  2. “外面零下25度,我好热.”(讽刺)
  1. “我们开得很慢,只有每小时20公里.”(Non-sarcastic)
  2. “我们开得很慢,只有160公里/小时.”(讽刺)

正如我们所看到的,这些句子只是在使用的数字上不同——因此是数字讽刺.

自动讽刺检测有不同的方法,包括:

  1. 基于规则的
  2. 统计
  3. 机器学习 算法
  4. 深度学习

基于深度学习的方法越来越受欢迎. Kumar, Somani和Bhattacharyya于2017年结束 特定的深度学习模型(CNN-LSTM-FF架构)优于之前的方法, 达到数字讽刺检测的最高精度水平.

但深度神经网络(dnn)不仅在数字讽刺方面表现最好,而且在一般情况下也优于其他讽刺检测方法. 高希和威尔 在他们2016年的论文中 使用卷积神经网络的组合, 长短期记忆(LSTM)网络, 和DNN. 他们将他们的方法与递归支持向量机(svm)进行了比较,并得出结论,他们的深度学习架构是对这些方法的改进.

情感分析挑战No. 2:表示否定检测

在语言学中,否定是一种颠倒单词、短语甚至句子极性的方法. 研究人员使用不同的语言规则来确定是否发生了否定, 但确定受否定词影响的词的范围也很重要.

受影响词的范围没有固定的大小. 例如, 在“这个节目不有趣”这句话中,范围只是否定词之后的下一个词. 但是对于像“我不认为这部电影是喜剧电影。,,否定词“not”的作用一直持续到句末. 在这种情况下,如果一个肯定或否定的词属于否定的范围,那么单词的原意就会改变, 相反的极性将被返回.

在句子中处理否定的最简单方法, 在最先进的情感分析技术中使用的是什么, 从否定提示到下一个标点符号的所有单词都标记为否定吗. 在不同的语境中,由于语言的特定结构,否定模式的有效性会发生变化.

几种表达否定意见的形式 句子:

  • 否定可以是形态上的,它可以用前缀表示(“dis-”)。, “non-”)或后缀(“-less”).
  • 否定可以是隐含的, 就像这样, 这将是他的第一部也是最后一部电影。, 但是没有使用否定词.
  • 否定可以是明确的,比如“这不好”.”

拥有不同类型的描述否定的样本将提高数据集的质量,用于训练和测试否定中的情感分类模型. 根据递归神经网络(RNNs)的最新研究,各种 LSTM模型的架构 在检测句子中的否定类型方面优于所有其他方法.

在论文中 否定在情感分析中的作用, 情感分析模型评估了从亚马逊和Trustedreviews收集的500条评论.com. 作者给出了带否定检测和不带否定检测的模型的比较. 他们的评估表明,考虑否定可以显著提高模型的准确性.

情感分析挑战No. 3 .词语歧义

单词歧义是处理情感分析问题时面临的另一个陷阱. 词语歧义的问题是不可能预先定义极性,因为一些词语的极性强烈依赖于句子上下文.

基于词典的情感分析方法在现有方法中很受欢迎. 意见词典包含具有极性值的意见词. 在互联网上有一些民意词汇:SentiWordNet, 一般调查报, 和SenticNet, 等. 因为词的极性在不同的领域是不同的, 不可能发展出一套每个词都有极性的通用意见词典. 例如:

  1. “这个故事是不可预测的.”
  2. “方向盘是不可预测的.”

这两个例子展示了语境如何影响观点和情感. 在第一个例子中,“不可预测”的词极性被预测为积极的. 在第二种情况下,同一个单词的极性是否定的.

情感分析挑战No. 4:多极化

有时, 一个给定的句子或文档——或者任何我们想要分析的文本单元——都会表现出多极化. 在这些情况下, 只得到分析的全部结果可能会产生误导, 就像一个平均值有时可以隐藏所有数字的有价值的信息一样.

想象一下作者谈论不同的人, products, 或文章或评论中的公司(或它们的各个方面). 在一篇文章中,有些主题会受到批评,有些主题会受到赞扬,这是很常见的.

在这里,总情绪极性将缺失关键信息. 这就是为什么有必要提取句子中带有指定情感标签的所有实体或方面,并且只在需要时计算总极性的原因.

让我们考虑一个包含多重极性的例子:“我的新笔记本电脑的音频质量很酷,但显示颜色不太好.”

一些情感分析模型会给这个句子分配一个否定或中性的极性. 处理这种情况, a sentiment analysis model must assign a polarity to each aspect in the sentence; here, “音频”是一个具有积极极性的方面,而“显示”是一个具有消极极性的单独方面.

要对这种方法进行更深入的描述,我推荐一篇有趣而有用的论文 基于方面的情感分析的深度学习 斯坦福大学的王波和刘敏.

提高情感分析的准确性:这些不是边缘情况

在本文中, 我们讨论了情感分析分类中常见的问题:讽刺, 否定, 词汇歧义, 和多极化. 了解这些将帮助您避免可能出现的问题:考虑我们讨论过的情况将显著提高分类模型中情感分析的准确性. 我希望这篇文章是对这个主题的有用介绍.

了解基本知识

  • 什么是情感分析?

    情感分析是研究人们的观点和情绪的过程.

  • 情感分析有什么用?

    人们在使用论坛, 社交网络, blogs, 和其他平台分享他们的观点, 从而产生了大量的数据. 公司和组织对自动分析这些用户生成的数据很感兴趣,以便有效地大规模了解这些数据.

  • 情感分析中的主观性是什么?

    主观句表达个人的感受、观点或信仰.

  • 词汇的作用是什么?

    词典包含具有极性值的意见词. 基于词典的情感分析模型将汇总句子中出现的词典词的极性值,并根据极性总分定义情感.

  • 什么是情感分类?

    情感分类是一个自动检测句子极性的过程. 大多数时候, 在情感分类中有三种可能的输出:积极的, neutral, 或消极.

就这一主题咨询作者或专家.
预约电话
鲁道夫Eremyan的头像
鲁道夫Eremyan

位于 第比利斯,格鲁吉亚

成员自 2018年8月2日

作者简介

Rudolf在NLP和机器学习方面有多年的经验. 他的基于人工智能的工具被格鲁吉亚最大的公司使用,比如TBC银行.

Toptal作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.

以前在

Staude资本

世界级的文章,每周发一次.

订阅意味着同意我们的 隐私政策

世界级的文章,每周发一次.

订阅意味着同意我们的 隐私政策

Toptal开发者

加入总冠军® community.