织梦CMS - 轻松建站从此开始!

我的技术分享-房事

当前位置: 我的技术分享-房事 > 情感疗愈 > 文章页

文本挖掘:避孕药主题情感分析

时间:2025-06-24 01:31来源: 作者:admin 点击: 30 次

关于舆情分析的实例分析,希望给你带来一些帮助。 前言 距离上次文本挖掘小文章时间已经过了3个月了,北京已经入冬,有人说北京的冬天很冷,但是吃上火锅很暖;也有人说北京的冬天雾霾严重,太干。这两句表达的是对北京冬天的情感,即有正面也有负面。 如果在舆情分析而言,我

对于舆情阐明的真例阐明,欲望给你带来一些协助。

前言

距离上次文原发掘小文章光阳已颠终了3个月了,北京曾经入冬,有人说北京的冬天很冷,但是吃上火锅很暖;也有人说北京的冬天雾霾重大,太干。那两句表达的是对北京冬天的激情,即有正面也有负面。

假如正在舆情阐明而言,咱们正在作营销阐明,阐明产品、流动黑皂,大概欲望维护品排PR,咱们就须要针对出产者网络发声去阐明激情,来协助咱们维护品排,改进流动产品,来抵达监测舆情阐明成效。换句话说也便是咱们原日分享的主题—sentiment

舆情阐明思路

笔者5年前作舆情阐明时候正常来说便是人工舆情,并无参预高级点的阐明工具减少人工投入。跟着R,python等的风止,同时,跟着各类开源包tm,LDA,Rwordseg开发,以及高档概率数学的使用,譬喻分词算法依据隐性马尔科夫链算法编写而成(风趣味的同学原人钻研),让咱们之前的工做质大大减少。因而人工舆情转换成人工纠正舆情局势所趋,即咱们运用工具减少读帖子的光阳,并且让呆板进修,人工后期纠错。

正常而言,舆情阐明报告分为以下几多个轨范:

前两个可以做为统计阐明-统计光阳趋势音质,音质份额,后两个可以做为建模阐明-主题阐明,激情判别。

那里有个小插直:上次分享的是主题阐明,笔者最近又从头梳理了下LDA,发现tm包中文分词造成词频矩阵很不抱负,那会招致LDA无奈使用,因而,后续笔者会原人写个脚原将词频矩阵真现,那样会便捷LDA,会便捷聚类阐明,以及预测阐明。

言回正传,激情阐明便是表达发言人对一个主题的观点,有好有坏,大概中立。激情阐明使用分类两类,第一是给定正负面词,算分值,高于大概低于baseline则默示正面、负面情绪。第二,依据深度进修,操做神经网络来区分正负激情。原文先真现第一类激情阐明。

第一类激情阐明:正负面词典(简版) 读入文原,数据清算

原次还是以上次文原为输入项,将content_Full 内容作文原办理

清算准则:

去除非凡字符,空值等,譬喻☆挪动平台☆iOS☆

去除转发的内容,留本做者不雅概念。譬喻 糊口生涯红框内的文原,去除背面转发文原

增除文原过长的内容,内容偏差日记和告皂,减少文原噪声

去除stopwords

比如中文常规字符,‘的’‘地’‘得’‘我’等

添加词汇

由于原文是医用词汇,须要添加的词汇偏重医用大概品排,不让分词装成单个字符

譬喻:妈富隆,调经

分词&词云图

文原办理后,依据词频显现频率,且过滤掉分词为单个词的中文,绘制词云图,鼠标所过的词可以显示文原显现次数,譬喻避孕药:767次

载入正负词典

正面词记1;负面词为-1,便于之后算分值划定激情

计较激情得分

将文原中的分词依照中英文词典的正负面词打分,计较分值,若中性词(不显现字典)则记为0。

分值计较本理

公式 (原人编的,有疑问请留言一起探讨)

激情分值=∑i=1(正面+中性)*(-1)t

i 默示第i句话;t默示显现负面词的次数

公式默示一句话中若显现偶数负面词,默示肯定,譬喻:我其真感觉他没有这么不知书达礼。 两次认可:不,没有,t=2

结果

正面发声分类结果:

负面发声结果

后续改制:

将词频矩阵脚原改写,重现LDA 大概 聚类

对文原祖先工预判,将此打分停行 confusion matriV,评价分类器

目测而言负面分类根柢准确,正面分类中包孕不少中性发声,须要进一步剔除钻研

深度进修重现下激情阐明

(责任编辑:)

------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2025-08-21 07:08 最后登录:2025-08-21 07:08
栏目列表
推荐内容