文章目录
- 在线社交网络分析
- 什么是在线社交网络
- 什么是在线社交网络分析
- 社交网络信息传播基本模型
- 影响力模型
- 传染模型
- 影响力计算公式
- 网络舆情监测
- 网络舆情概述
- 网络舆情监测系统
在线社交网络分析
什么是在线社交网络
在线社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。
- 三个维度
也叫三个要素,包含关系结构、网络群体、网络信息。
(1)关系结构为网络群体互动行为提供了平台,是载体。
(2)网络群体直接推动网络信息传播,并反过来影响关系结构,是主体。
(3)网络信息及其传播是网络的出发点和归宿、群体行为的诱因和效果、同样影响关系结构,是客体。
什么是在线社交网络分析
在线社交网络分析是指从网络结构、群体互动、信息传播三个维度,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。
社交网络信息传播基本模型
信息传播模型包括两个:影响力模型和传染模型。
我们一般假设一个网络,里面由无数个节点和节点的连接组成。
影响力模型
- 每个节点有两种状态:活跃和不活跃。只有活跃的节点才具有影响力,能够影响其他节点。
- 一个节点被影响成功,称为该节点被激活。
- 网络中的影响力传播表现为节点被激活。状态转变是单向的,即无法从活跃变为不活跃。
(1)独立级联模型
在 t 时刻被激活的节点在 t+1 时刻仅有一次机会去影响邻居;
假设节点 v 在 t 时刻被激活,则对于 v 的任何邻居 w,在 t+1 时刻被激活的概率是 P V W P_{VW} PVW。
(2)线性阈值模型
任何时刻,被激活的点可以激活其余点;
每个节点都有激活阈值;
影响程度超过阈值则被激活。
传染模型
- 传染模型也叫流行病模型。
- 节点有三种状态:易感人群
可能会感染疾病
、感染人群有机会去感染别人
、免疫人群被感染治愈后不会再次感染
。 - 我们把易感节点称为 S,感染节点称为 I,免疫节点称为 R,则有:
(1)SI 模型
有 S 和 I 节点;
一个节点被感染,会持续传染周围的节点;
I 会尝试以概率 β \beta β 去感染周围的 S。
(2)SIS 模型
有 S 和 I 节点;
在 SI 模型的基础上,被感染的节点 I 有概率 μ \mu μ 被治愈回易感节点 S。
(3)SIR 模型
有 S、I 和 R 节点;
在 SI 模型的基础上,被感染的节点 I 有概率 μ \mu μ 被治愈成免疫节点 R。
(4)SIRS 模型
有 S、I 和 R 节点;
在 SIR 模型的基础上,R 有概率 η \eta η 转化回易感节点 S。
- 我们以 SIR 为例子:
(1)总人口为 N ( t ) N(t) N(t),则有 N ( t ) = s ( t ) + i ( t ) + r ( t ) N(t)=s(t)+i(t)+r(t) N(t)=s(t)+i(t)+r(t)。这些是节点 S 在 t 时刻的人数。(I、R 同理)
(2)三个假设
假设1:人口 N ( t ) N(t) N(t) 始终保持常数,即 N ( t ) = K N(t)=K N(t)=K;
假设2:t 时刻单位时间内,一个病人能传染的数目与此刻的 s ( t ) s(t) s(t) 成正比,系数为 β \beta β,则在 t 时刻内所有被传染的人数为 β s ( t ) i ( t ) \beta s(t)i(t) βs(t)i(t);
假设3:t 时刻单位时间内,从染病者中被移出的人数与病人数量成正比,系数为 γ \gamma γ,则在 t 时刻被移出者的数量为 γ i ( t ) \gamma i(t) γi(t)。
(3)感染机制如下:
(4)当易感个体和感染个体充分混合时,感染个体的增长率为 β s ( t ) i ( t ) − γ i ( t ) βs(t)i(t)-γi(t) βs(t)i(t)−γi(t),易感个体的下降率(就是感染个体的增长率,也不知道为啥非得说成易感个体的下降率,难听)
为 β s ( t ) i ( t ) βs(t)i(t) βs(t)i(t),恢复个体的增长率为 γ i ( t ) γi(t) γi(t)。易感者从患病到移出的过程可以用微分方程表示如下:
(5)上述微分方程解得 I = ( S 0 + I 0 ) − S + 1 σ l n S S 0 I=(S_0+I_0)-S+\frac{1}{\sigma}ln\frac{S}{S_0} I=(S0+I0)−S+σ1lnS0S, S S S 和 S 0 S_0 S0 表示初始, σ \sigma σ 表示传染期接触数 σ = β γ \sigma=\frac{\beta}{\gamma} σ=γβ。
(6)为保证疾病不蔓延,需要使 S 0 < 1 σ S_0 < \frac{1}{\sigma} S0<σ1。
影响力计算公式
给定集合 S,集合 S 对网络的影响力计算公式如下:
σ ( x ) = 1 M ∑ 1 M ∣ R ( S ) ∣ \sigma(x)=\frac{1}{M}\sum_{1}^{M}|R(S)| σ(x)=M11∑M∣R(S)∣其中, R ( S ) R(S) R(S) 为 S 中节点影响网络中节点的数目, M M M 为给定的模拟次数。对集合 S 模拟影响力传播 M M M 次,得到每个传播得到的影响力结果,取平均得到集合影响力。
网络舆情监测
网络舆情概述
是以互联网为载体所表达的公众情绪。
- 特征
自发性、指向性、时效性、情绪性、片面性。 - 演化
舆情形成期 – 舆情高涨期 – 舆情波动期 – 舆情消退期。
网络舆情监测系统
- (1)数据采集处理层
主要提供网络数据采集和预处理功能。 - (2)舆情分析引擎层
主要提供话题检测、话题跟踪、倾向性分析、自动摘要、中文分词等功能。
主要完成热点话题的检测、跟踪及情感倾向性分析,并自动摘要。
核心技术是文本聚类、文本分类中所采用的算法和模型。 - (3)舆情分析服务层
主要提供突发事件分析、舆情预警报警、舆情趋势分析、舆情统计报告以及舆情查询检索等各种舆情分析服务,以方便用户使用。 - 网络信息采集
网络信息采集技术涉及搜索引擎、网络蜘蛛、网页搜索算法、网页相关性分析等相关技术。 - 话题检测与跟踪
旨在没有人工干预的情况下自动检索、判断和识别新闻数据流中的话题。