仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

观察用户核心度值与引起直接转发数的相关性,可以发现该指标能够较好的体现其直接引发的转发数量

2020-10-26

观察用户核心度值与引起直接转发数的相关性,可以发现该指标能够较好的体现其直接引发的转发数量,也考虑到对后续转发的间接推动(附录Ⅱ(2))。综合来看,社交网络往往普遍存在大规模性,因此使用复杂度高的算法难以实现对显示社交网络的指标计算,结合用户自身质量指标衡量手段不一,因此也可以考虑相关中心性算法实现用户自身质量的量化。

3.4 基于关注关系网络结构:情绪强弱性

考虑到观念、情绪等也是可以传播的,故本文旨在量化情绪的强弱对转发的促进作用,此处使用《基于情感词典的情感分析方法》计算用户情绪强弱性,对于每一个文本都可以得到一个情感分值,以情感分值的正负性表示情感极性,大于0为积极情绪,小于0反之,绝对值越大情绪越强烈。

基于情感词典的情感分析方法主要思路:

  • 对文本进行分词,找出文本中的情感词、否定词以及程度副词;
  • 判断每个情感词之前是否存在否定词及程度副词,将其与情感词分为文本中的一个组;
  • 如果情感词前有否定词则将情感词的情感权值乘以-1,如果有程度副词就乘以程度副词的程度值;
  • 加和所有组的得分,积极情绪得分大于0、消极情绪得分小于0,绝对值越大情绪越强。

图4 情绪强弱性判定结果

一个转发用户的情绪影响指标由其对下层用户的情绪强弱性值决定,使用上述算法,以单条微博涉及用户为范围计算用户情绪影响指标,并做归一化处理。


用户自身质量指标是位置信息与情绪影响的线性相加,有:


其中,a1、a2分别为用户自身质量计算中位置信息因素与情绪影响因素所占比重,设为0.8、0.2。

3.5 指标集成

对于高复杂度算法算法:在基于社交网络的信息传播过程中:

  • 转发影响力:体现被转发用户信息传播能力在话题内的信息传播广度。
  • 用户自身质量:体现用户信息传播能力影响用户的强度。

因此本文将这两个度量指标通过线性融合计算用户在话题内的信息传播能力大小。

其中,θ1为核心用户计算中用户转发影响力所占比重,θ2为用户自身质量所占比重;如设置θ1=θ2=0.5,表示认为用户转发影响力、用户自身质量对核心用户挖掘同等重要。该算法以社交网络理论为基础,结合 PageRank 算法,既考虑微博信息转发网络特征,充分结合用户转发行为的时间特征,又结合用户情绪传递性考虑微博用户的质量属性特征,具体体现于对信息扩散的推动、对下级用户的影响强度。

整体上看,能够较好地反映核心用户的综合影响力。对于低复杂度算法算法:综合考虑影响用户核心程度的各种指标,本文提出一种结合关注关系、转发链路以及扩散速率的核心用户挖掘算法,对于不同的微博类型,可针对性对NZX值以及final-rank进行赋权,针对娱乐性新闻WNZX,Wfinal-rank可分别设置为0.8,0.2;针对政治性新闻,由于其穿透性更强,转发深度更深,WNZX,Wfinal-rank可分别设置为0.5,0.5。综上定义核心度计算公式为:

四、传播规模预测

在微博网络中,用户之间是通过“关注-被关注”联系在一起的,每一个用户都可以关注其他用户,关系网络可以看作是一个有向图。

4.1 结构化与非结构化传播

经典的传播理论认为信息的传播可以分为“大众传播”和“人际传播”。随着社会网络分析(SNA)方法不断地发展,对于信息传播规模的预测出现了过度“结构”化现象(6),即过分强调网络结构,忽略的信息传播的宏观性。个体间的相互作用对最终传播规模有着重要影响,夸大其网络结构的作用,往往有悖实际情况。

微博的出现让“非结构化传播”和“结构化传播”间的界限更加模糊,如微博信息扩散途径并不完全依赖于关注关系,还包括热门推荐、热搜榜单等都有可能是微博转发源(附录Ⅲ(1))。

图5 结构化、非结构化转发示意图结果


图6 不同网络结构化转发在对应转发深度中比重

4.2 非结构化传播预测

由上文的分析可知,本次竞赛提供的30条热门微博的转发数据不严格或者很少严格依据网络关注关系结构,因此本文提出基于传染病模型的非结构化的转发预测方法,该方法依赖于转发规模随时间的变化数据学习参数,图为30条微博转发规模的变化曲线,时间步长为一个小时。


图7 30条微博转发数随时间变化情况

SIRE模型定义:基于研究传染病传播的舱室(SIR)模型的基础上增加非结构化转发行为。

  • 当用户参与单条微博信息的转发之后,基本不会再次转发,成为 “免疫用户”。
  • 信息传播不全依赖于网络关系(关注关系网络),增加“外来用户”。
  • 结合微博特性的传播预测模型:SIRE(Susceptible-Infectious-Recovered-External)模型。


图8 SIRE模型示意图

在实际的微博传播过程中,比如某用户发布一条微博,最先被该用户的粉丝看到,并可能引起转发行为。当用户转发过这条微博之后,基本不会再次进行转发,从而成为这条微博的“免疫用户”。由于微博内容在网络中进行传播,也存在着不是微博用户的粉丝而进行的转发行为,即非结构化转发。因此,本文在基于研究sir传染病传播模型的基础上增加非结构化转发用户,即“外来用户”,提出满足微博特性的传播预测模型,定义为SIRE模型。

该模型满足以下假设:

  1. 假设1:用户发布或者转发用户的状态为感染用户,其直接粉丝的状态为易感染用户。
  2. 假设2:微博用户从易感染用户成为感染用户的概率为β。
  3. 假设3:用户从感染转态成为免疫状态的概率为α。
  4. 假设4:没有关注这些感染用户的状态为外来用户。此类用户自主阅读微博并转发的概率为γ。

当给定某条微博,t时刻,在SIRE模型中:

  • S(t)表示t时刻易感染用户的数量,该部分人群可能会进行转发;
  • I(t)表示已转发改微博的用户,并且具有传播力的人群;
  • R(t)表示免疫用户R的数量,该类用户表示t时刻不会再转发该微博的用户人数。
相关推荐