人生倒计时
- 今日已经过去小时
- 这周已经过去天
- 本月已经过去天
- 今年已经过去个月
推特情感分析(推特情感分析系统 用例图)
喜欢玩推特的人是什么心理
交互心理。用户借助交友软件进行接触事务,是用户自身交互心理的重要的依据。心理是人类在情感世界里流动的过程和结果。具体指生物对客观物质世界的主观反映,心理的表现形式叫做心理现象,心理比较脆弱的人,会更容易体会到别人的情感体验、情绪变化,从而也会更善良,更会去帮助那些需要我们帮助的人。
(使用浏览器扫码进入在线客服窗口)
复制联系方式

网络时代:用算法和员工对话
每天,全世界的人要发送超过2000亿份邮件,无数条微博、朋友圈。单单通过人力没办法从这些庞大的数据里找到头绪,把信息中的主题和众多信息所呈现的趋势连接起来。不过,人做不到的事,计算机正在慢慢学着做。
经过超过10年的研究,研究人员已经成功开发出一些计算机程序,能够获取大量信息,并通过抓取的数据理解一个想法或者一个产品所激荡起的人类情感。有了这种技术,老板们可以听到员工们真正的心声。
情感分析的出现和应用
情感分析又称为倾向性分析或者意见挖掘,指的是计算机对带有情感色彩的主观性文本进行分析、处理、归纳、推理的过程。
这一技术首先被应用于市场调研。最初,公司运用算法来收集线上的客户评论,以分析自己产品的用户体验或者了解竞争对手的产品特点。通过计算机算法所得到的信息比传统的客户调研(用户填写调查表,勾选满意程度)能够展示更多的用户情绪和体验信息。
后来,情感分析逐渐成为一个更大、更赚钱的产业。现在,一些初创企业专门为其他公司提供这种分析服务,而一些大的科技公司内部则自行开发了内部的情感分析软件。
现在,许多企业已经开始面向内部员工使用这些情感分析技术。英特尔、IBM、推特等公司已经开始用软件来了解自己的员工,了解员工们对于工作的感受,并且能够通过算法尽早发现在年度评价中被忽略的问题。
企业了解员工的新途径
一个企业想要发现运营中存在的问题其实并不容易。管理者需要运用社交倾听的能力,引导下级真实地反映自己的所思所想,还要有效地摘除冗余的马屁、无用的意见,最终筛选出真正有效的建议。这既考验管理者的智慧,又占据着公司精英的宝贵时间,繁杂低效。但决策者如果因此就不去了解员工的思想,就不能及时发现公司存在的问题,也就很难做出正确的决定,经营的状况很可能会因为某个工作节点的失误而走向滑铁卢。现在有了情感分析技术,过去花一两个月时间都不一定做得到的事情,依靠技术就能够实时反映出问题,了解员工的真实想法。
美国著名的社交网站推特公司雇佣了一家分析公司专门对员工的工作情况展开调研。调研每年进行两次,内容包含许多开放式问题。推特每个月向1/6的员工发送这些调查表,增加了开放性问题的比例。分析公司的分析工具会仔细从这些开放性问题的回答中摘取重要信息,进行分析,将得到的结果提供给高管参考。
其他公司关注于正式审核或调研以外的信息材料,比如员工闲聊的内容。员工的不满或者意见通过统一的调查表格很难看得出来,为了了解员工的真实想法,以及验证公司政策的实际运行效果,IBM公司多年来在公司内部的社交网络平台收集员工发布的个人状态和他们的评论。
IBM公司的这个平台叫做“连接”,IBM公司遍及全球170多个国家的38万员工都在使用这一平台。它集合了脸书、云盘和维基百科的多种功能,员工可以在这个内部平台上发布状态,评论他人发布的内容,设立群组。他们采用一款内部开发的情况分析工具——“社交脉搏”监测员工发布的状态和他们的留言,找寻数据的流向,标注大家普遍反映的意见趋势。
去年,IBM甚至做出调整,将这个程序加入到员工绩效考核体系。人力资源部门专门建立了一个论坛,对设立新系统征求反馈意见和建议,他们收到了几十万条回复。IBM没有依靠人力去梳理这些回复的内容,而是通过社交脉搏来获取需要的数据。这一软件成功帮助公司了解到一些员工的不满:员工不希望用曲线评分标准(又称正态评分,不是按照实际表现的成绩,而是按照一定的正态分布划定等级,并不能准确反映出员工的绩效)来衡量他们的表现。因此,公司立即做出回应,废除了这一旧制度。
要了解,也要尊重
上文所说那个帮推特分析员工调查结果的软件公司,还提供面向整个工作和社交网络的反馈分析服务。他们的一种产品能够进行“员工敬业度跟踪”,随着时间变化追踪员工的情绪,判断其处于积极情绪还是消极状态当中。公司领导可以运用这个产品中的搜索功能,查看员工的情绪状态分析,因人制宜地分配工作或者发布消息,避免效率低下或者造成不必要的冲突。
体察员工的情绪状态和真实意见固然是出于好的意图,但是一不小心就可能踩过界,窥探到别人的私人空间。如果把信息挖掘的来源从员工调查表和员工反馈拓展到社交媒体监察,很容易侵犯员工的个人隐私。正是因为这样,IBM限制其数据来源,只从全公司共享的文章和评论中获取数据,不触碰邮件、对话框或者私人小组的互动内容。
?亟待改进的分析技术
现阶段,情绪分析技术还很不成熟。计算机理解人类自然语言的能力还很有限,想要准确理解人的意思非常困难。一项研究测试了基本分析工具分析邮件信息内容的能力,发现分析工具理解人类意图的准确率不超过30%(不过,让两个人来做同样的事,准确率也只能达到75%)。依靠计算机算法来进行情感分析虽然便捷高效,但是仅仅依靠这一技术似乎是不够的。
检测人类元素仍然是情绪感知算法中非常重要的一项工作。即便是IBM公司用了3年的社交脉搏软件也需要人类参与辅助工作。该系统需要一组人类分析师定期检查系统所辨认的信息流,确保系统在得出结果并送交给管理者之前能够正确理解数据。
机器学习技术的发展使得计算机算法理解人类文字的能力已经有了很大程度的提升,但是研究者们不局限于这一种途径,许多科学家已经开始找寻各种新手段来优化情感分析技术。两位印度的计算机科学家去年发表了一篇论文,提议采取新的方式确定员工的态度和幸福感——面部识别。他们所创造的系统在每次员工进入公司的时候采集他们的面部信息,辨别他们的情绪是开心、伤心、沮丧还是愤怒,这样可以根据这些数据来优化分析生产率和员工绩效。
分析了10位情感大V的账号,终于总结出了他们成功的经验!
1、你女朋友生气,一定是因为他的某种需求没有得到满足,只要你找对原因,自然就好了。
2、成为情绪的主任而不是成为情绪的努奴隶,情绪是一把双刃剑,我们要学会掌控他,别都三十好几的人了,还整天抱怨社会的不公,有那时间不如好好反思一下我现在能做什么,而不是社会能给我什么。
3、你知道吗?飞机是世界上最安全的交通工具,没有之一。你觉得飞机失事率高,是因为新闻报道的都是飞机失事后才会报道,也不是每年都有。但是每年平安起落的飞机却是几千万架次。这告诉我们我觉得怎么怎么样并不可靠,不要人云亦云,到观察,多总结,多看实际数据,这有助于提高我们对生活的幸福指数。
4、人都希望得到别人的喜欢而不是厌恶。所以请每天别总冷着一张臭脸像别人都欠你一百万似得。多夸奖一下你身边的人,多微笑一下,你会有意想不到的收获。
5、一些年青人正在教他们的父母使用手机,电脑,某信,某宝,以便让他们的父母跟上这个飞速发展的时代。而有些人却在责怪自己的父母什么都不懂,观念陈旧,你是怎么做的呢?
6、不带评论的观察是人类智力的最高形式。我们总讲对事不对人,可是又有几个人能做到的呢?
7、有的人把随心所欲当成一种习惯,但是请相信我在现实中“坚持”才是一种可贵的品质,因为它决定了一个人敢不敢把一些重要的事情托付给你。
8、微信好友给你发送消息你没有看到回复不及时,一定要在12小时内给予对方回复,不然你可能失去这个朋友。
9、不要去相信“寒门再难出贵子”记住特别是在农村,努力读书,努力学习始终是你唯一的出路。
10、明天和意外永远不知道哪一个先到。所以请珍惜你的每一天,善待你身边的每个人。
11、点赞是一种习惯,更是一种对我最大的夸奖,请您花一秒钟时间帮忙点个赞呗。
12、此时此刻,你是成就辉煌还是一事无成并不重要,重要的是你当前的习惯是否让你走上了通向成功的道路。
13、人并没有与生俱来的信念,每个信念都是通过后天习得并由经验磨砺出来的。说白了就是一个好的习惯就是重复了足够多的次数后而变的自动化的行为。
14、习惯本身并不是人们想要的,人们想要的是习惯带来的成果,比如跑步,人们需要的不是跑步这个过程,而要的是减肥这个结果,可是没有过程哪来的结果?
15、永远不要绝对相信自己的记忆,因为你记忆中的某些东西和别人的记忆可能根本不同。
16、如果你想专心致志的做一件事情的时候,一定要把你的手机放在另外一个房间。要不然你只会总看手机,而忽略你要做的事情。
大数据带来的隐患 数据垄断
大数据带来的隐患:数据垄断
在信息爆炸的社会,受众面对海量信息,往往需要花费大量的时间和精力进行筛选。但借助来自移动互联网和社会化媒体所提供的丰富数据资源(例如用户的地理位置、关系网、兴趣图谱等信息),以及日臻精确的挖掘和分析技术,媒体可以了解受众的心理、 需求以及行为习惯等,并以此为基础提供更符合受众需要的、个性化的内容服务与广告营销。这样的精准传播会加深受众好感,提高用户忠诚度。
以往触不可及的梦想在大数据时代实现了。而最深刻的革命其实不在外界,而在人类的思维领域。
人类思维的转向:人类的态度、情绪、行为等都可以变为数据进行分析和预测
人类内心深处隐秘的欲望、需求、情感是可以洞悉并预测的吗?这是一个长久以来盘亘在心理学家、行为学家、哲学家心中的困惑,而大数据时代的统计学家、数据挖掘专家则做出了肯定而乐观的回答。现在,“情感分析”、“预测模型”的应用已经渐入佳境,企业和媒体已经可以通过“情感分析”来确定社交媒体上用户群的态度,而推特(Twitter)甚至在2012年美国大选时对用户每天推文和评论的关键词进行量化跟踪,计算出“政治指数”来判断民心所向。
大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面,都可以变为数据来进行分析和预测。日常生活里的可量化维度从未得到如此淋漓尽致的挖掘与利用,而数学模型也在更广泛的领域里得到了重视。以往的统计分析强调的是因果关系,而现在的大数据研究更注重相关关系。因果关系的讨论时常不够全面,而对相关关系的把握更能够产生效用。从对“为什么”的疑问到对“是什么”的追寻,这体现了人类对世界的探索和理解有了更丰富的思路。
也许最极端的结论来自全球复杂网络研究权威艾伯特-拉斯洛·巴拉巴西。在一书中,他宣称人类行为93%是可以预测的:“当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。我们都具有爆发式,而且非常规律。看上去很随意、很偶然,但却极其容易被预测。”“爆发”即指人们的工作、娱乐及其他种种活动都有间歇性,会在短期内突然爆发,然后又几乎陷入沉寂。人类行为并非随机的小概率事件,而是在意向作用下非常规的突变行为。
不论巴拉巴西的理论是否赢得主流的共识,这些发现至少表明,在技术以外,大数据时代向人类昭示出越来越多富有启发意义的世界观和历史观。
大数据时代的隐忧:数据垄断的困境
首先,数据的可接近性并不就使得其使用合乎伦理。大数据为监测和预示人们的生活提供了极大的方便,然而个人隐私也随之暴露在无形的“第三只眼”之下。无论是电子商务、搜索引擎还是微博等互联网服务商都对用户行为数据进行了挖掘和分析,以获得商业利益,这一过程中不可避免地威胁到普通人的隐私。以往人们认为网络的匿名化可以避免个人信息的泄露,然而大数据时代里,数据的交叉检验会使得匿名化失效。许多数据在收集时并非具有目的性,但随着技术的快速进步,这些数据最终被开发出新的用途,而个人并不知情。不仅如此,运用大数据还可能预测并控制人类的潜在行为,在缺乏有效伦理机制下有可能造成对公平、自由、尊严等人性价值的践踏。
其次,越大的数据并非总是越好的数据。对数据的盲目依赖会导致思维和决策的僵化。当越来越多的事物被量化,人们也更加容易陷入只看重数据的误区里。关于数据在何时何地有意义的争议,已经不再局限于“标准化考试是否能够衡量学生素质”之类的讨论,而是拓展到更加广阔的领域。另一方面,如果企业甚至政府在决策过程中滥用数据资料或者出现分析失误,将会严重损害民众的安全和利益。如何避免成为数据的奴隶,已经成为迫在眉睫的问题。
第三,大数据的有限接入产生新的垄断和数码沟。面对大数据,谁能接入?为何目的?在何种情境下?受到怎样的限制?数据大量积累的同时,却也出现了数据垄断的困境。一些企业或国家为了维护自己的利益而拒绝信息的流动,这不仅浪费了数据资源,而且会阻碍创新的实现。与互联网时代的数码沟问题一样,大数据的应用同样存在着接入和技能的双重鸿沟。对于数据的挖掘和使用主要限于那些具有计算机开发和使用背景的专业人士,这也就意味着谁将占据优势、谁会败下阵来,以及由此而来的面对“谁更有权力”的拷问。
进入大数据时代,数据的掌握者们是否会平等地交换数据,促进数据分析的标准化,在数据公开的同时如何与知识产权的保护相结合,不仅涉及到政府的政策,也与企业的未来规划息息相关。
人工智能技术应用:情感分析概述
与其他的人工智能技术相比,情感分析(Sentiment Analysis)显得有些特殊,因为其他的领域都是根据客观的数据来进行分析和预测,但情感分析则带有强烈的个人主观因素。情感分析的目标是从文本中分析出人们对于实体及其属性所表达的情感倾向以及观点,这项技术最早的研究始于2003年Nasukawa和Yi两位学者的关于商品评论的论文。
随着推特等社交媒体以及电商平台的发展而产生大量带有观点的内容,给情感分析提供了所需的数据基础。时至今日,情感识别已经在多个领域被广泛的应用。例如在商品零售领域,用户的评价对于零售商和生产商都是非常重要的反馈信息,通过对海量用户的评价进行情感分析,可以量化用户对产品及其竞品的褒贬程度,从而了解用户对于产品的诉求以及自己产品与竞品的对比优劣。在社会舆情领域,通过分析大众对于社会热点事件的点评可以有效的掌握舆论的走向。在企业舆情方面,利用情感分析可以快速了解社会对企业的评价,为企业的战略规划提供决策依据,提升企业在市场中的竞争力。在金融交易领域,分析交易者对于股票及其他金融衍生品的态度,为行情交易提供辅助依据。
目前,绝大多数的人工智能开放平台都具备情感分析的能力,如图所示是玻森中文语义开放平台的情感分析功能演示,可以看出除了通用领域的情感分析外,还有汽车、厨具、餐饮、新闻和微博几个特定领域的分析。
那么到底什么是情感分析呢?从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向,自然语言所有的核心技术问题,例如:词汇语义,指代消解,此役小气,信息抽取,语义分析等都会在情感分析中用到。因此,情感分析被认为是一个自然语言处理的子任务,我们可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e,a,s,h,t)
以图为例,e是指某餐厅,a为该餐厅的性价比属性,s是对该餐厅的性价比表示了褒义的评价,h为发表评论者本人,t是19年7月27日。所以这条评论的情感分析可以表示为五元组(某餐厅,性价比,正向褒义,评论者,19年7月27日)。
情感分析根据处理文本颗粒度的不同,大致可以分为三个级别的任务,分别是篇章级、句子级和属性级。我们分别来看一下。
1. 篇章级情感分析
篇章级情感分析的目标是判断整篇文档表达的是褒义还是贬义的情感,例如一篇书评,或者对某一个热点时事新闻发表的评论,只要待分析的文本超过了一句话的范畴,即可视为是篇章级的情感分析。
对于篇章级的情感分析而言有一个前提假设,那就是全篇章所表达的观点仅针对一个单独的实体e,且只包含一个观点持有者h的观点。这种做法将整个文档视为一个整体,不对篇章中包含的具体实体和实体属性进行研究,使得篇章级的情感分析在实际应用中比较局限,无法对一段文本中的多个实体进行单独分析,对于文本中多个观点持有者的观点也无法辨别。
例如评价的文本是:“我觉得这款手机很棒。”评价者表达的是对手机整体的褒义评价,但如果是:“我觉得这款手机拍照功能很不错,但信号不是很好”这样的句子,在同一个评论中出现了褒义词又出现了贬义词,篇章级的分析是无法分辨出来的,只能将其作为一个整体进行分析。
不过好在有很多的场景是不需要区分观点评价的实体和观点持有者,例如在商品评论的情感分析中,可以默认评论的对象是被评论的商品,评论的观点持有者也是评论者本人。当然,这个也需要看被评论的商品具体是什么东西,如果是亲子旅游这样的旅游服务,那么评论中就很有可能包含一个以上的观点持有者。
在实际工作中,篇章级的情感分析无法满足我们对于评价更细致,如果需要对评论进行更精确,更细致的分析,我们需要拆分篇章中的每一句话,这就是句子级的情感分析研究的问题。
2. 句子级情感分析
与篇章级的情感分析类似,句子级的情感分析任务是判断一个句子表达的是褒义还是贬义的情感,虽然颗粒度到了句子层级,但是句子级分析与篇章级存在同样的前提假设是,那就是一个句子只表达了一个观点和一种情感,并且只有一个观点持有人。如果一个句子中包含了两种以上的评价或多个观点持有人的观点,句子级的分析是无法分辨的。好在现实生活中,绝大多数的句子都只表达了一种情感。
既然句子级的情感分析在局限性上与篇章级是一样的,那么进行句子级的情感分析意义何在呢?关于这个问题,需要先解释一下语言学上主观句与客观句的分别。在我们日常用语当中,根据语句中是否带有说话人的主观情感可以将句子分为主观句和客观句,例如:“我喜欢这款新手机。”就是一个主观句,表达了说话人内心的情感或观点,而:“这个APP昨天更新了新功能。”则是一个客观句,陈述的是一个客观事实性信息,并不包含说话人内心的主观情感。通过分辨一个句子是否是主观句,可以帮助我们过滤掉一部分不含情感的句子,让数据处理更有效率。
但是在实操过程中,我们会发现这样的分类方法似乎并不是特别准确,因为一个主观句也可能没有表达任何的情感信息,知识表达了期望或者猜测,例如:“我觉得他现在已经在回家的路上了。”这句话是一个主观句,表达了说话人的猜测,但是并没有表达出任何的情感。而客观句也有可能包含情感信息,表明说话者并不希望这个事实发生,例如:“昨天刚买的新车就被人刮花了。”这句话是一个客观句,但结合常识我们会发现,这句话中其实是包含了说话人的负面情感。
所以,仅仅对句子进行主客观的分类还不足以达到对数据进行过滤的要求,我们需要的是对句子是否含有情感信息进行分类,如果一个句子直接表达或隐含了情感信息,则认为这个句子是含有情感观点的,对于不含情感观点的句子则可以进行过滤。目前对于句子是否含有情感信息的分类技术大多都是采用有监督的学习算法,这种方法需要大量的人工标注数据,基于句子特征来对句子进行分类。
总之,我们可以将句子级的情感分析分成两步,第一步是判断待分析的句子是否含有观点信息,第二步则是针对这些含有观点信息的句子进行情感分析,发现其中情感的倾向性,判断是褒义还是贬义。关于分析情感倾向性的方法与篇章级类似,依然是可以采用监督学习或根据情感词词典的方法来处理,我们会在后续的小节详细讲解。
句子级的情感分析相较于篇章级而言,颗粒度更加细分,但同样只能判断整体的情感,忽略了对于被评价实体的属性。同时它也无法判断比较型的情感观点,例如:“A产品的用户体验比B产品好多了。”对于这样一句话中表达了多个情感的句子,我们不能将其简单的归类为褒义或贬义的情感,而是需要更进一步的细化颗粒度,对评价实体的属性进行抽取,并将属性与相关实体之间进行关联,这就是属性级情感分析。
3. 属性级情感分析
上文介绍的篇章级和句子级的情感分析,都无法确切的知道评价者喜欢和不喜欢的具体是什么东西,同时也无法区分对某一个被评价实体的A属性持褒义倾向,对B属性却持贬义倾向的情况。但在实际的语言表达中,一个句子中可能包含了多个不同情感倾向的观点,例如:“我喜欢这家餐厅的装修风格,但菜的味道却很一般。”类似于这样的句子,很难通过篇章级和句子级的情感分析了解到对象的属性层面。
为了在句子级分析的基础上更加细化,我们需要从文本中发现或抽取评价的对象主体信息,并根据文本的上下文判断评价者针对每一个属性所表达的是褒义还是贬义的情感,这种就称之为属性级的情感分析。属性级的情感分析关注的是被评价实体及其属性,包括评价者以及评价时间,目标是挖掘与发现评论在实体及其属性上的观点信息,使之能够生成有关目标实体及其属性完整的五元组观点摘要。具体到技术层面来看,属性级的情感分析可以分为以下6个步骤:
关于文本中的实体抽取和指代消解问题,我们已经在知识图谱的相关章节中做了介绍,这里就不再赘述。针对篇章级、句子级、属性级这三种类型的情感分析任务,人们做了大量的研究并提出了很多分类的方法,这些方法大致可以分为基于词典和基于机器学习两种,下面我们进行详细的讲解。
做情感分析离不开情感词,情感词是承载情感信息最基本的单元,除了基本的词之外,一些包含了情感含义的短语和成语我们也将其统称为情感词。基于情感词典的情感分析方法,主要是基于一个包含了已标注的情感词和短语的词典,在这个词典中包括了情感词的情感倾向以及情感强度,一般将褒义的情感标注为正数,贬义的情感标注为负数。
具体的步骤如图所示,首先将待分析的文本先进行分词,并对分词后的结果做去除停用词和无用词等文本数据的预处理。然后将分词的结果与情感词典中的词进行匹配,并根据词典标注的情感分对文本进行加法计算,最终的计算结果如果为正则是褒义情感,如果为负则是贬义情感,如果为0或情感倾向不明显的得分则为中性情感或无情感。
情感词典是整个分析流程的核心,情感词标注数据的好坏直接决定了情感分类的结果,在这方面可以直接采用已有的开源情感词典,例如BosonNLP基于微博、新闻、论坛等数据来源构建的情感词典,知网(Hownet)情感词典,台湾大学简体中文情感极性词典(NTSUSD),snownlp框架的词典等,同时还可以使用哈工大整理的同义词词林拓展词典作为辅助,通过这个词典可以找到情感词的同义词,拓展情感词典的范围。
当然,我们也可以根据业务的需要来自己训练情感词典,目前主流的情感词词典有三种构建方法:人工方法、基于字典的方法和基于语料库的方法。对于情感词的情感赋值,最简单的方法是将所有的褒义情感词赋值为+1,贬义的情感词赋值为-1,最后进行相加得出情感分析的结果。
但是这种赋值方式显然不符合实际的需求,在实际的语言表达中,存在着非常多的表达方式可以改变情感的强度,最典型的就是程度副词。程度副词分为两种,一种是可以加强情感词原本的情感,这种称之为情感加强词,例如“很好”相较于“好”的情感程度会更强烈,“非常好”又比“很好”更强。另外一种是情感减弱词,例如“没那么好”虽然也是褒义倾向,但情感强度相较于“好”会弱很多。如果出现了增强词,则需要在原来的赋值基础上增加情感得分,如果出现了减弱词则需要减少相应的情感得分。
另一种需要注意的情况是否定词,否定词的出现一般会改变情感词原本的情感倾向,变为相反的情感,例如“不好”就是在“好”前面加上了否定词“不”,使之变成了贬义词。早期的研究会将否定词搭配的情感词直接取相反数,即如果“好”的情感倾向是+1,那么“不好”的情感倾向就是-1。但是这种简单粗暴的规则无法对应上真实的表达情感,例如“太好”是一个比“好”褒义倾向更强的词,如果“好”的值为+1,那么“太好”可以赋值为+3,加上否定词的“不太好”变成-3则显然有点过于贬义了,将其赋值为-1或者-0.5可能更合适。
基于这种情况,我们可以对否定词也添加上程度的赋值而不是简单的取相反数,对于表达强烈否定的词例如“不那么”赋值为±4,当遇到与褒义词的组合时褒义词则取负数,与贬义词的组合则取正数,例如贬义词“难听”的赋值是-3,加上否定词变成“不那么难听”的情感得分就会是(-3+4=1)。
第三种需要注意的情况是条件词,如果一个条件词出现在句子中,则这个句子很可能不适合用来做情感分析,例如“如果我明天可以去旅行,那么我一定会非常开心。”,在这句话中有明显的褒义情感词,但是因为存在条件词“如果”,使得这个句子的并没有表达观点持有者的真实情感,而是一种假设。
除了条件句之外,还有一种语言表达也是需要在数据预处理阶段进行排除的,那就是疑问句。例如“这个餐厅真的有你说的那么好吗?”,虽然句子中出现了很强烈的褒义情感词“那么好”,但依然不能将它分类为褒义句。疑问句通常会有固定的结尾词,例如“……吗?”或者“……么?”,但是也有的疑问句会省略掉结尾词,直接使用标点符号“?”,例如“你今天是不是不开心?”,这个句子中含有否定词和褒义词组成的“不开心”,但不能将其分类为贬义情感。
最后一种需要注意的情况是转折词,典型词是“但是”,出现在转折词之前的情感倾向通常与转折词之后的情感倾向相反,例如:“我上次在这家酒店的住宿体验非常好,但是这次却让我很失望。”在这个转折句中,转折词之前的“非常好”是一个很强的褒义词,但真实的情感表达却是转折词之后的“很失望”,最终应该将其分类为贬义情感。当然,也存在出现了转折词,但语句本身的情感并没有发生改变的情况,例如“你这次考试比上次有了很大的进步,但是我觉得你可以做得更好”,这里的转折词没有转折含义,而是一种递进含义。在实际操作中,我们所以需要先判断转折句真实的情感表达到底是哪个,才能进行正确的分析计算。
构建情感词典是一件比较耗费人工的事情,除了上述需要注意的问题外,还存在精准度不高,新词和网络用语难以快速收录进词典等问题。同时基于词典的分析方法也存在很多的局限性,例如一个句子可能出现了情感词,但并没有表达情感。或者一个句子不含任何情感词,但却蕴含了说话人的情感。以及部分情感词的含义会随着上下文语境的变化而变化的问题,例如“精明”这个词可以作为褒义词夸奖他人,也可以作为贬义词批评他人。
尽管目前存在诸多问题,但基于字典的情感分析方法也有着不可取代的优势,那就是这种分析方法通用性较强,大多数情况下无需特别的领域数据标注就可以分析文本所表达的情感,对于通用领域的情感分析可以将其作为首选的方案。
我们在机器学习算法的章节介绍过很多分类算法,例如逻辑回归、朴素贝叶斯、KNN等,这些算法都可以用于情感识别。具体的做法与机器学习一样需要分为两个步骤,第一步是根据训练数据构建算法模型,第二步是将测试数据输入到算法模型中输出对应的结果,接下来做具体的讲解。
首先,我们需要准备一些训练用的文本数据,并人工给这些数据做好情感分类的标注,通常的做法下,如果是褒义和贬义的两分类,则褒义标注为1,贬义标注为0,如果是褒义、贬义和中性三分类,则褒义标注为1,中性标注为0,贬义标注为-1.
在这一环节中如果用纯人工方法来进行标注,可能会因为个人主观因素对标注的结果造成一定影响,为了避免人的因素带来的影响,也为了提高标注的效率,有一些其他取巧的方法来对数据进行自动标注。比如在电商领域中,商品的评论除了文本数据之外通常还会带有一个5星的等级评分,我们可以根据用户的5星评分作为标注依据,如果是1-2星则标注为贬义,如果是3星标注为中性,4-5星标注为褒义。又比如在社区领域中,很多社区会对帖子有赞和踩的功能,这一数据也可以作为情感标注的参考依据。
第二步是将标注好情感倾向的文本进行分词,并进行数据的预处理,前文已经对分词有了很多的介绍,这里就不再过多的赘述。第三步是从分词的结果中标注出具备情感特征的词,这里特别说一下,如果是对情感进行分类,可以参考情感词典进行标注,也可以采用TF-IDF算法自动抽取出文档的特征词进行标注。如果分析的是某个特定领域的,还需要标注出特定领域的词,例如做商品评价的情感分析,需要标注出商品名称,品类名称,属性名称等。第四步根据分词统计词频构建词袋模型,形成特征词矩阵,如表所示。在这一步可以根据业务需要给每个特征词赋予权重,并通过词频乘以权重得到特征词分数。最后一步就是根据分类算法,将特征词矩阵作为输入数据,得到最终的分类模型。
当训练好分类模型之后,就可以对测试集进行分类了,具体的流程与建模流程类似,先对测试的文本数据进行分词并做数据预处理,然后根据特征词矩阵抽取测试文本的特征词构建词袋矩阵,并将词袋矩阵的词频数据作为输入数据代入之前训练好的模型进行分类,得到分类的结果。
采用基于机器学习的方法进行情感分析有以下几个不足之处,第一是每一个应用领域之间的语言描述差异导致了训练得到的分类模型不能应用与其他的领域,需要单独构建。第二是最终的分类效果取决于训练文本的选择以及正确的情感标注,而人对于情感的理解带有主观性,如果标注出现偏差就会对最终的结果产生影响。
除了基于词典和基于机器学习的方法,也有一些学者将两者结合起来使用,弥补两种方法的缺点,比单独采用一种方法的分类效果要更好,另外,也有学者尝试使用基于LSTM等深度学习的方法对情感进行分析,相信在未来,情感分析会应用在更多的产品中,帮助我们更好的理解用户需求,提升用户使用智能产品的体验。
随着深度神经网络等算法的应用,情感分析的研究方向已经有了非常大的进展,但依然存在着一些难题是目前尚未解决的,在实操过程中需特别注意以下几种类型数据:
情绪轮在用户体验设计上被广泛的应用,很多情感化设计都是基于情绪轮进行的。但是在人工智能领域,将情绪进行多分类比情感分析的三分类任务要难得多,目前大多数分类方法的结果准确性都不到50%。这是因为情绪本身包含了太多的类别,而且不同的类别之间又可能具有相似性,一个情绪词在不同的语境下有可能表达的是不同的情绪类别,算法很难对其进行分类。即使是人工对文本进行情绪类别标注也往往效果不佳,因为情绪是非常主观性的,不同的人对不同的文本可能产生不同的理解,这使得人工标注情绪类比的过程异常困难。如何让机器可以理解真实的情绪目前还是一个未能攻克的难题。

