仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

结构化预测方法的展望与想法

2020-10-26

结构化预测方法的展望与想法

5.1 转发行为影响因素提取

微博信息传播的主体机制就是转发行为,能对微博转发产生影响的因素有很多,不同的因素对用户最终转发与否的贡献值也并不相同,我们提出用户核心度、信息强化效应为用户转发的影响因素。

5.1.1 用户影响力

用户核心度表达了用户在社交网络结构中的重要程度,具体体现于一个人的行为引起其他人的行为改变的能力。现存众多基于网络结构的节点影响力计算方法(7),如K核中心性(K-shell)、介数中心性(Betweenness)等。Sergey Brin和Lawrence Page(8)提出的经典的网页排序算法PageRank值,Cataldi等人(9)考虑到微博等社交网络的连边关系与网页中的连接的相似性,将PageRank算法应用于社交网络中影响力节点的判断并可以较好展现网络中的用户核心程度,因此本文使用PageRank值作为节点影响力评价指标(附录Ⅲ(2))。

5.1.2 信息强化效应

在社交网络中,因为用户间存在趋同性,某些行为也具有类似信息的传播效果,例如同龄人的饮食行为(10),微博用户的转发行为等。我们对30条热门微博8万多用户参与的114856次转发行为分析时有如下发现(附录Ⅲ(3))。

  • 有68340次转发(59%),其用户的关注列表中并没有参与该条微博转发的用户,可能转自推荐或者热搜,这也是微博信息传播的非结构化体现。
  • 存在23843次转发,其参与者的关注列表中有一位参与该条信息转发的用户。
  • 有22673次转发受到2次及以上激活,社会强化效应不可忽视。

5.2 基于强化效应预测模型

本文提出一种基于微博关注关系、用户影响力以及信息强化效应的传播规模预测模型,该模型在线性阈值模型(LT)(11)的基础上着重考虑不同用户影响力。该模型分为两个部分,启动部分及后续传播部分。启动部分考虑根微博用户u对粉丝集合fans(u)的影响力PR(u),用户v转发阈值设置为0到该粉丝所有关注用户(Fv)PR值之和间的随机数,即γv∈[0,sum(PR(Fv))],若PR(u)>γv,则用户v不转发;若PR(u)≤γv,则用户v转发。后续传播部分因为信息的冗余所以存在强化效应,对用户的总影响力Influce(v)计算如下:


用户v转发阈值设置为0到该粉丝所有关注用户(Fv)PR值之和间的随机数,与LR模型不同,当v所关注用户近90%都转发了该微博,则用户v必参与转发。


循环上述算法二直至不再增加转发节点,可以得到基于关注关系结构的转发规模Net_Scale。结合上文对8万多用户的转发行为分析,59%的用户的转发不依赖于关注关系,所以有最终传播规模:


5.3 基于链路预测模型

分析本次比赛提供的数据之后,本文将微博信息转发预测问题转化为链路预测问题。链路预测的主要目的是基于推测网络节点之间存在链路的概率。本文主要研究基于转发关系的微博传播网络中的链路预测问题(附录Ⅳ(1))。

本文采用转发数据对不同的指标进行对比分析,将数据及按照0.85:0.15的比例切分训练集和测试集。分别尝试Adamic-Adar,Jaccard Coefficient, Preferential Attachment, Node2vec, Variational Graph Auto-Encoders等链路预测方法,衡量链路预测算法精度的指标主要有AUC和Precision,其中AUC从整体上衡量算法的精确度,Precision只考虑排在前L位的边是否预测准确。仿真结果发现Node2vec, Variational Graph Auto-Encoders, Spectral Clustering 在ROC得分和PR得分上要优于Adamic-Adar,Jaccard Coefficient, Preferential Attachment(详见附录Ⅳ(2))。

六、结论与展望

本文分析了新浪微博30条热门信息转发链路,提出了对于真实传播网络的核心传播者发现算法,该算法综合考虑用户直接带来的转发量,以及对信息后续传播的影响,提出用户核心度,转发速率指标,从时间、空间角度量化用户贡献值,实现单条微博转发中用户重要程度排名。

本文还深入分析了转发链路与最终传播规模的内在关系,提出了一种基于SIRE的传播规模预测模型,此外,想法拓展中提出一种基于影响力的转发阈值模型,该模型分为启动部分和后续传播部分,综合考虑了用户在网络结构中的影响力以及社会行为强化效应,通过仿真计算的方法预测传播规模,最后尝试了几种链路预测算法用于信息传播模型研究。社交网络上的信息传播机制相对复杂,其一定的传播机理附近存在大量的随机性与不确定性,受限于用户的兴趣爱好、转发习惯、甚至情绪的影响。

单从结构上、宏观上都无法准确描述其具体传播范式。实现真实准确的转发规模预测,即要考虑结构上的“内部影响”,也要考虑宏观层面的“外部影响”,以及结合用户习惯与博文属性等等因素。只考虑信息传播链路、用户网络结构等特征无法实现对于真实热门信息的全面挖掘。用户探索是发现社交信息传播模式的核心,新浪微博拥有海量用户,来自社会的各个层面,用节点代表用户,用连边代表关系是理想化的拓扑模型,方便计算却难以精准进行人群画像,从而忽略众多信息。

此外,本文对于信息强化效应的量化还有待提高,可在大规模社交网络上使用多种传播模型做多次信息传播仿真,这也是下一步的工作。

寻找信息传播可计算的基因远远不是几万行数据、几千行代码可以实现的,不确定的时代给计算传播学更多机遇与挑战,在线社交网络为信息传播研究带来极好的契机,推荐系统与社交关系改变了用户接受信息的方式,社交媒体与舆论大v创造了用户的信息环境,探索社交网络信息传播本质对大型社会网络研究将是巨大的贡献。

参考文献:

1. Fan L, Lu Z, Wu W, Thuraisingham B, Ma H, Bi Y, editors. Least Cost Rumor Blocking in Social Networks. international conference on distributed computing systems; 2013.

2. Liu D, Jing Y, Zhao J, Wang W, Song G. A Fast and Efficient Algorithm for Mining Top-k Nodes in Complex Networks. Scientific Reports. 2017;7(1):43330.

3. Richardson M, Domingos P, editors. Mining knowledge-sharing sites for viral marketing. knowledge discovery and data mining; 2002.

4.  宫秀文,张佩云.基于PageRank的社交网络影响最大化传播模型与算法研究[J].计算机科学,2013,40(S1):136-140.

5.  丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(04):691-706.

6.  许小可.社交网络上的计算传播学[D].北京:高等教育出版社, 2015:2-3.

7.  任晓龙,吕琳媛.网络重要节点排序方法综述[J].科学通报,2014,59(13):1175-1197.

8.  Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bring order to the Web.

Stanford University Technical Report SIDL-WP-1999-0120, 1999.

9.  Cataldi M, Caro L D, Schifanella C. Emerging topic detection on Twitter based on

temporal and social terms evaluation[C]. In MDMKDD’10, 2010: 4-13.

10. 许小可.社交网络上的计算传播学[D].北京:高等教育出版社, 2015:164-199.

11.  Granovetter M. Threshold Models of Collective Behavior. American Journal of Sociology. 1978;83(6):1420-43

附录Ⅰ


注:图示为30条微博转发趋势情况,横、纵坐标分别为转发深度、参与转发的用户总数。

我们发现公共关注事件,例如“庞氏青年水氢车”,“女排夺冠”等话题,其往往能引起群体的愤怒或喜悦,信息穿透性更强,扩散范围更广泛,平均转发深度高达20;兴趣导向事件,例如“AI换脸”,“姐姐来了”,“易烊千玺”等文娱微博,符合部分用户的兴趣,转发深度较低,扩散范围较为集中,转发深度均值为5~6左右。针对同一事件的不同文本描述,例如“德云社弟子众筹百万”事件,存在不同的扩散深度与传播规模,其受限于博文新颖性、发布用户关键性,其中博文能直接引起“大众情绪”的转发深度高达24。


相关推荐