星空艺术网
名家在线

人民在线李伟:舆情事件等级评估及基于语义理解实现文本精细化分类

作者: 来源: 时间:2020-09-11

  • 最新
  • 精选
  • 区块链
  • 汽车
  • 创意科技
  • 媒体达人
  • 电影音乐
  • 娱乐休闲
  • 生活旅行
  • 学习工具
  • 历史读书
  • 金融理财
  • 美食菜谱

人民在线李伟:舆情事件等级评估及基于语义理解实现文本精细化分类

人民网舆情数据中心 人民网舆情监测室 2020-07-22


点击上方蓝字 可以订阅哦!



7月17日,由人民网舆情数据中心/人民在线主办的第二届“人民云社会评价科技大会”在线上顺利举行,主题为“重大风险评估体系建设”与会的数据建模、计算机技术应用、舆情领域专家学者就如何有效地利用新技术完善重大风险评估体系建设进行了分享和探讨。人民网情数据中心主任数据分析分享的主是:情事件等级评估及基于语义理解实现文本精化分





01

舆情事件等级评估





舆情事件等级评估,李伟从四个方面进行了阐释:一是当前舆情行业等级评估主要方法以及存在问题。当前行业内使用的指标主要是热度值。虽然搜索的热度值或报道的数量能反映一个事件社会关注度,但却存在着指标单一、数据不全、无法针对用户特点提供个性化服务等问题。因此评估舆情事件严重程度需要有能容纳原有方法,但更全面、多维、面向用户个性化需求的模型来实现。


二是舆情事件等级综合评估模型设计的原则,这涉及到两个方面。一是要考虑到模型里面有哪些变量,二是建立模型应该遵循的原则。变量因素主要有三点考量,第一点要考虑利益相关方,第二点要考虑其面向的用户,第三点是事件的严重程度,以这样的思路构造模型结构。利用机器学习理念,通过训练得到模型参数,这也是本研究创新之处。当然,不是通过梯度下降等等典型反向传播方法由机器自动实现,而是人工按照一定规则调试。构建模型时,需要考虑其健壮性和鲁棒性,同时,一定要充分利用舆情专家的经验


李伟结合案例,从目的和数据两个方面对舆情事件等级评估进行了阐释。他提出在目的方面要遵循输入简单契合用户行业特点、逻辑简单明了、基本符合直觉、客观科学的要求。而数据主要依靠系统的自动采集、用户简单查询,辅以用户少量主观判断。评分模型结构包括评分和评级两个部分共三个环节。见图1利用模型对舆情事件评价过程:


图1  利用模型对舆情事件评价过程


对于评分模型,李伟依据这一公式进行考量:


舆情事件原始得分 =(传播热度+影响因子)* 用户相关系数 * 事件严重程度


其中传播热度是基础、基本面,影响因子是局部叠加的,用户相关系数和事件严重程度二者是全局性影响因素。在模型中,即使没有任何痕迹事件(因某些原因网上没有任何报道),在百分制传播热度中也能有基础的60分,这种设计保证了模型健壮性。李伟还强调,事件中敏感因子得分总量不超过13分,这样既没有影响事件基本面特征,又能反应事件客体起的局部叠加影响作用,让模型不会因为一些变量数值小变动而对结果产生很大影响,保障了模型鲁棒性


三是对一个政府部门用户进行了实例化分析。请人民网舆情专家就36个舆情事件(类别基本平衡)进行了评级,充分利用了专家知识,通过这些打了标记样本训练参数。把不同类别案例得分区间理想状态下没有交叉,(如“一般”类别的最高分要


最后李伟针对当前模型提出了一些存在问题和改进方法。首先,当前样本量还不够,需要专家评分标记;其次,对于不同的等级事件,如遇分值交叉情况,阈值该如何确定。针对这两个问题,李伟提出,第一要扩大样本,并把未用于训练的一些专家评分样本作为“验证集”使用。通过此方法来迭代,让参数更合理。第二要扩大采集对象。当前热度值采集对象只是关于某个事件关键词报道的文章、网页,后续采集可以把文章本身的点赞、转发等都加上去。第三要为不同等级事件评分的交叉部分以及阈值的确定方法考虑更详细规则




02

基于知识图谱和NLP的文本精细化分类





李伟首先阐述了知识图谱和NLP的文本精细化分类的现实需求。在当前的文本分类,一般是结合上下文的情况进行分类,在语句层面以及“词”的层面理解都不够到位。因此需要进一步基于知识图谱,利用NLP技术消除词的歧义,对文本进行语义识别实现精细化分类,从词和语句两个层面来解决问题。李伟对NLP和知识图谱也做出了简单介绍。NLP就是让人类和机器之间可以无障碍通信,让计算机能没有困难地理解人类自然语言。人类对自然语言处理的研究主要包括以下方面:对语句中词进行词性标注、句法分析、自然语言生成、文本分类问题、海量信息检索、重要信息抽取、自动朗读文本、人机之间问答系统、机器翻译和提取文章摘要等等。要满足以上应用,语义分析成为自然语言处理技术的几个核心任务之一。知识图谱是结构化语义知识库,用于以符号形式描述物理世界中概念及其相互关系。其基本组成单位是“实体-关系-实体”或“实体-属性-属性值”三元组,实体间通过关系相互联结,构成网状知识结构。知识图谱包含三层含义:1)知识图谱本质是一个具有属性实体(E)通过关系(R)链接而成的网状知识库(S)。2)从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。3)知识图谱是对物理世界的一种符号表达。知识图谱由数据层 (data layer) 和模式层 (schema layer)两部分构成,大多只有数据层,除非要进行知识推理时候才需要模式层。


知识图谱有人工构建和机器自动构建两种方式。见图2知识图谱自动构建方法


图2  知识图谱自动构建方法


对于句子级的语义分析,李伟表示主要是通过语义标注来了解句子含义。语义标注首先需要处理最小对象——知识元,也就是词,需要先了解知识元含义,然后明确知识元联结方式,二者共同构成句子含义,从而实现句子级语义理解。知识元/词含义需要有两个方面工作:分词和消除歧义,知识元联结方式包括词与词之间关系,还有词与词之间的组合方法。见图3知识图谱应用于句子级语义理解


图3  知识图谱应用于句子级语义理解


优化词嵌入算法,引入知识图谱,实现分类优化,见图4分词有序嵌入到词向量空间中。李伟提出四个方面:一是分词有序进入到词向量空间中,要把自然语言转化到机器语言,这时机器才能对自然语言进行一个理解;二是关键词的提取,运用了TextRank算法;三是利用知识图谱实体对齐方法,消除分词歧义,将基于属性相似性评分匹配问题转化为分类问题;四是利用基于共同邻居计数方法的结构相似性函数分辨词义远近。


图4  分词有序嵌入到词向量空间中


基于句子级语义理解,知识图谱NLP精细化理解文本的方法,李伟提出首先要基于句子级语义分析,结合知识图谱,精确爬取文本。其次要引入知识图谱进行第二次文本分类,这也是本研究创新点。句子级语义分析首先要提取出关键词,并找到其对应领域知识图谱,进行第二次的分类匹配。在第二次细分文本的过程中,首先对文章进行摘要,并定位关键词段落,每一个关键词找到5个三元组,从而建设好知识图谱。


运用知识图谱进行二次文本分类即对上述过程进行更具体地细化。首先对文本进行分词,找到含有歧义的段落,嵌入词向量空间,通过LSTM进行文本摘要,得到三个以上关键词。通过构建图谱抽取5个三元组,在与对应领域匹配比对,从而实现文本的第二次分类。见图5引入知识图谱实现第二次文本精细化分类


图5  引入知识图谱实现第二次文本精细化分类


测试结果及改进问题上李伟与技术专家共同研讨后发现,通过自动构建的知识图谱与文本中的三元组匹配,相似度没有想象中的那么高。其误差原因可能在于运用通用型语言构建图谱,缺乏针对性。因此需要有更专业的素材来创建领域知识图谱。最后李伟总结,将知识图谱结合NLP方法是一条可行的路径,这个方法在很多其他课题中也同样适用。


人民在线的“人民云社会评价科技”是人民网“内容科技”的组成部分,通过人工智能、区块链、大数据等技术应用,快速、高效、精准地将海量的社会认知,转化为可定性和定量分析的社会评价。举办系列“人民云社会评价科技大会”旨在构建一个开放共享的交流平台,推进大数据在社会治理领域的应用,为国家治理体系和治理能力现代化水平的提升贡献“人民力量”。


编辑:刘柳(实习生)|责编: 李娅琦

你点的每个赞,我都认真当成了喜欢


    前往看一看

    看一看入口已关闭

    在“设置”-“通用”-“发现页管理”打开“看一看”入口

    我知道了

    已发送

    发送到看一看

    发送中

    微信扫一扫
    使用小程序

    取消 允许

    取消 允许

    微信版本过低

    当前微信版本不支持该功能,请升级至最新版本。

    我知道了 前往更新

    确定删除回复吗?

    取消 删除

      知道了

      长按识别前往小程序

      本站仅按申请收录文章,版权归原作者所有
      如若侵权,请联系本站删除

      微信QQ空间新浪微博腾讯微博人人Twitter豆瓣百度贴吧

      觉得不错,分享给更多人看到

      人民网舆情监测室 热门文章:

      “刺死辱母者”搅起的舆论风潮为何愈演愈烈?这次不同寻常!    阅读/点赞 : 46343/391

      网络舆情处置中的十大错误思维    阅读/点赞 : 16829/141

      于欢案:珍惜司法和舆论的良性互动    阅读/点赞 : 15539/190

      2016外交部十大经典回应 很霸气!    阅读/点赞 : 6199/265

      3·15被媒体曝光怎么办?速看转危为机宝典!    阅读/点赞 : 5476/40

      洞见丨祝华新:舆论场上的警察印象    阅读/点赞 : 5474/67

      舆论场上的8位中国女神,有你心中的她吗?    阅读/点赞 : 3988/50

      【舆情观察】“蕾力父女CP”引争议:综艺娱乐的伦理边界在哪里    阅读/点赞 : 2284/40

      【舆情观察】前方高能!这份《弹幕语言研究报告》实在太6!    阅读/点赞 : 2005/88

      【舆情观察】时隔17年 债转股正式重启    阅读/点赞 : 319/46

      人民网舆情监测室 微信二维码

      人民网舆情监测室 微信二维码

      人民网舆情监测室 最新文章

      人民在线李伟:舆情事件等级评估及基于语义理解实现文本精细化分类  2020-07-22

      人民网舆情数据中心发布年度中国互联网舆论场发展研究报告  2020-07-22

      2020政法系统微博榜周榜发布 (7月13日-7月19日)  2020-07-22

      餐饮业将禁用一次性塑料吸管 互联网医疗服务将纳入医保报销 | 食点药闻  2020-07-22

      从数据云到数据湖 人民慕课为您解读技术和产业变革浪潮中的“新”机遇  2020-07-22

      媒体的核心竞争是怎么打造的?| 人民慕课吴晨光工作室源流说20问之十六  2020-07-22

      人民在线技术总监冯伟:大数据在企业风险评估中的应用  2020-07-21

      第二季度检查情况陆续通报 政府网站政务新媒体还有哪些问题待改进  2020-07-21

      海底捞回应乌鸡卷中吃到塑料片 中成药、生物制品或实施国家集采 | 食点药闻  2020-07-21

      怎么让更多用户爱上你的APP? | 人民慕课吴晨光工作室源流说20问之十五  2020-07-21

      (adsbygoogle = window.adsbygoogle || []).push({});

      (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); (function(){ var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae":"https://jspassport.ssl.qhimg.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae"; document.write(''); })();

      1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源; 2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任; 3.作者投稿可能会经我们编辑修改或补充。

      相关文章
      • iTutorGroup创始人杨正大:97...

      • 在线英语学习效果如何?数据显示用户小学托...

      • 易观:2019中国在线旅游市场年度综合分...

      • 易观:2018在线婚恋交友行业年度综合分...

      • 617直播看过来 | 颜值和功能doub...

      • eMarketer:搜索、视频、bann...

      • 【名家前瞻】何辉:曼城明显有夺冠压力,莱...

      • 在线教育产品 同质化问题仍待突破