欢迎访问一起赢论文辅导网
MBA论文
当前位置:首页 > MBA论文
采用实时线性模型的微博话题预警分析
来源:一起赢论文网     日期:2018-10-11     浏览数:156     【 字体:

  61 卷 第 15 2017 8 月度,再据相似用户的喜好程度推荐目标用户某一信息,过滤用户不感兴趣的信息[9],填充后的矩阵可看作协同过滤算法中的矩阵。本文以微博热点话题“雾霾”的转发数、评论数、点赞数 3 个指标为例,描述缺失值填充过程。首先查询并筛选出微博内容以“雾霾”为热度词的用户,用Jaccard 系数来度量二值型数据的重叠程度 sim ( ij) ,将转发数、评论数、点赞数分别代入公式( 1) :sim( ij) =| UiUj|| UiUj|( 1)其中,集合 U 代表微博用户响应行为属性,具体指转发数、评论数、点赞数 3 个指标( 以下响应行为均指这 3 个具体指标) ; 分子是用户 i 和用户 j 的公共热度话题词; 分母是用户 i 和用户 j 的所有热度话题词。集合 U 是行为数据相似的用户组成的集合[9]。在集合 U中,设 Im为用户 i j 的公共响应行为集合,则衡量 2个用户间的相似度 sim( ij) :sim( ij) =ΣkIij( rik- 珋rj) ( rjk- 珋rj)ΣkIij( rikri)2ΣkIij( rjkrj)2( 2)其中,rikrjk分别表示用户 i j 在公共热度话题词集合 Im上的重合度,珋ri和 珋rj表示用户 i j 在公共热度话题词集合 Im上的平均重合度[10( 其中重合度的值均介于 0 1 之间) ,其计算公式为:ri=1| Iij|ΣkIijrik( 3)rj=1| Iij|ΣkIijrjk( 4)分别计算集合 Im中两两用户间的相似度,将与其相似度最大的数据的值填充到相应的缺失处[11]。23 微博话题热度和大 V 影响力因子加权模型231 V 数据采集规则的确定 选取 2016 年前 10个月的数据作为训练集,后 2 个月的数据作为测试集进行验证。以下建模所用数据均为前 10 个月的数据。在 10 个月的数据中,排名 Top10 的话题发布者为普通用户的概率微乎其微。由此本文选取大 V 认证的 10个账号进行分析,若实际公布的话题表中含有普通用户贡献的话题词时,将对模型进行进一步的修正,否则模型仍沿用采集大 V 用户的数据进行分析。对采集的用户进行分类并编号:Vi=1,普通用户2,橙 V 认证3,蓝 V{认证其中,橙 V 认证指个人认证,主要包括娱乐、体育、传媒、财经、旅游等个人账号; V 认证指机构认证,主要包括政府、媒体、校园、企业、网站、应用等官方账号。而橙 V 认证范围内主要有 6 种类型: 明星型、精英型、政务型、专业型、公益型和宗教型,其中明星型、精英型和专业型的大 V 因在微博中拥有较高人气而最具代表性,本文选取 6 位典型的橙 V 认证的大 V 作为样本展开实例分析,依次是: ①明星型: 胡歌、范冰冰; ②专业型: 杨澜、韩寒; ③商业精英型: 李开复、潘石屹[3]。蓝V 认证的大 V 类型也与以上类似,本文选取 4 个典型的官方账号作为样本展开实例分析,依次为: 中国政府网、钛媒体、微博校园、中国企业家。对以上 10 个账号采集如下 7 个指标: 用户关注账号数、粉丝数、认证级别、发布微博数、转发数、评论数、点赞数。对采集到的的数据进行归一化处理,如公式( 5) 所示:X·=x xminxmaxxmin( 5)其中 x*为归一化后的值,x 为进行归一化的值,xmaxxmin分别为该值取值范围的最大和最小值,再对其降维。232 因子分析和逐步回归确定公共影响因子 降维的方法有很多,主流算法有因子分析和主成分分析。多数文献采用主成分分析,是利用其计算量小、准确度高的优点,但其从原理上讲仅仅是变量变换,即因子分析是用原始变量的线性组合表示新的综合变量; 而因子分析是用潜在的假想变量和随机影响变量的线性组合表示原始变量,符合微博影响因素众多、采集指标庞大、指标间没有确定关联关系的特点,故本文采用因子分析法,将具有错综复杂关系的变量综合为数量较少的因子,以再现原始变量与因子的关系。通过不同的因子对变量进行分类,消除其相关性,在信息损失最小的情况下达到降维的目标。经过因子分析的假设检验后,据因子分析的数值结果可将 7 个指标中的 6 个主要指标名称分为 2 类,将转发数、评论数和点赞数归为微博热度话题因子h Ti,将粉丝数、级别认证和发布微博数归为大 V 影响力因子 v Ti,分别得 h Tiv Ti的含 7 个指标的线性表达式。为进一步确定因子选择的正确性,引入逐步回归方法,用于查找重要变量的多重共线性[12]。选 2016年上半年的数据中的包含转发数、评论数、点赞数在内的 7 个指标,用逐步回归方法对因子分析中得到的分231浩,文海宁. 采用实时线性模型的微博话题预警分析[J]. 图书情报工作,201761( 15) : 130 137.个,百万以上粉丝的大 V 超过 3 300 个,千万以上粉丝的大 V 200 个。这个微博时代几乎等同于意见领袖的时代,大 V 的影响力不容小觑,甚至是带动新浪微博用户活跃的基础。因此经过微博认证的大 V 用户往往易成为预警的目标[3]。实验数据通过新浪微博提供的开放平台中的信息转发 API 接口获取,但 API 仍处于测试阶段,开放内容不全面,查询返回结果在数量和调用频率上存在诸多限制,难以全面获取数据。再考虑到普通用户量基数大但影响力小,而微博账号通过大V 认证的用户少但影响力广、最有可能引发预警,若不对用户进行级别划分,用户微博发布信息量大且时间间隔较小,总体数据采集量过于巨大,将对建模造成困难。且在没有 BI 类软件自动采集解析并分层次存储在 Hive 或 Redis 数据库的情况下,必须据系统用途确定,并抽取具有代表性的重要指标分类存储在 log 日志文件中,做到不漏采和误采。微博话题热度的研究主要以微博内容为研究主体。就微观层面的微博内容特征而言,微博评论量对转发量有显著影响。评论量反映了用户的互动参与程度,是信息接收者对信息的主动反馈; 转发量则是衡量用户参与传播的水平,是用户在接收信息后通过转发扩大该微博信息影响力的表现。用户互动参与度越高,继续转发扩散这条信息的比重就越大。由此可见非独立变量的指标间还存在未知关联规则。孙江华等[4]选择官方微博为研究对象,取关注数、粉丝数、日均发博数、平均每条转发数、平均每条评论数和平均每条点赞数为指标; V 认证微博的影响力研究则是以微博用户为研究主体。孙茜等[5]选取用户粉丝增长变化率、关注变化率等影响用户活跃变化的因子为指标。多数研究者在中文分词后只从文本分析的角度确定微博热度,即只考虑以微博内容为分析主体。其实在微博环境下,由于用户间信息的实时互通和高度互联,热门微博通常带动成千上万人一起参与互动,用来描述热度的特征量不仅仅是热度词出现的次数,更在于微博用户的参与度和发布者的影响力[6]。因此,本文借鉴 YHe 等[7]的方法,采集用户关注账号数、粉丝数、认证级别、发布微博数、转发数、评论数、点赞数共7 个指标,对微博内容与影响力进行综合分析。22 数据清洗所有建模问题都无法绕过数据清洗。倘若将获取的数据直接建模,极易产生“garbage ingarbage out”现象,很难挖掘出有效信息[8]。常见的需清理的数据类型有: 缺失值、异常值、无效值和重复值。其中,无效值是由于人工录入错误或某些具时效性数据失效造成,而重复值往往是实际数据层级结构明显且繁复,整合时误将唯一 ID 整合为多个 ID 造成[8]。微博热点话题数据不存在上述两种情况,因此只清洗缺失值和异常值。所谓缺失数据是指终端工作异常而引起的采集数据全部或部分属性值缺失,具体来讲当按秒级采集数据。例如每次取一个月的数据,极易引起服务器崩溃而无法获取数据。不具代表性的异常值会直接影响模型的准确性,例如节假日时期,数据与往日比呈现爆发性增长,亦或是正常时期,某业务数据却几乎趋于零,前者过高的异常值人工可判定为正常,但后者一般预示了集群中某一台或几台机器宕机。对异常值的处理方式无非是删除或替换为恰当值,但具体到微博热点话题数据,删除会导致数据不满足时间序列条件,造成模型自身属性不完整,势必对模型预测精确率造成极大影响,故只能替换为恰当值,且将异常值看做缺失值一并处理。因此,如何填充数据是清洗异常值的核心。当用 Java 对微博内容进行分词并存入微博热点话题表后,要将每个热点话题的用户关注账号数、粉丝数、认证级别、发布微博数、转发数、评论数、点赞数分别与之对应,而后进入数据清洗模块,对缺失值和异常值进行处理。异常值的判定方法有 3 : ①据经验法则设定每个变量正常取值范围,即阈值,超过即为异常; ②直接考虑变量间的相互作用,建立特定函数模型,将采集的数据拟合后与模型值进行比较,剔除严重偏离的数据[8; ③聚类,将相似的观测值分布在同一个簇,对小部分观测值单独处理筛选出异常簇。方法①需要有经验人员定阈值,不可行,方法②的前提是已知研究变量之间的关系函数,因此本文采用聚类方法识别异常值。待异常值被识别并剔除后,可看作只有缺失值。常用的处理方法有 4 : ①删除含有缺失值的案例; ②根据变量间相关关系填补缺失值; ③根据案例间相似度填补缺失值; ④使用可以处理缺失值数据的工具。方法①与引言已讨论的不能删除异常值的原因相同,不采纳。方法②与异常值判定法第二点的原因相同,不适合; 方法④限定使用的工具,故也不适合采用。由此选择方法③,依案例间相似性填补关键数据的缺失值。在相似度填充问题上,隶属推荐算法的协同过滤算法发展得较为完备。协同过滤的原理是通过海量用户的历史行为数据分析其偏好,寻找目标用户的协同相似( 偏好) 用户,汇总相似用户对不同信息的喜好程131采用实时线性模型的微博话题预警分析*■ 饶浩1文海宁21韶关学院信息科学与工程学院 韶关 5120052广西师范大学数学与统计学院 桂林 541004摘要: [目的 /意义]微博在当前信息传播中起着重要作用,为有效预测微博热点及舆情导控,建立实时线性预警模型。[方法 /过程]将采集的指标进行缺失值和异常值的处理后,对微博话题热度与大 V 影响力因子进行因子分析与逐步回归的比较,筛选出公共影响因子; 再对其加权,探索不同权重调节因子下的最佳定量公式; 用此公式每次输入当前时刻起前 3 小时的数据,预测当前时刻起后 30 分钟的加权值对应的话题词,每隔 10分钟重新更新一遍参数。[结果 /结论]实验证明该预测模型能大大降低数据采集解析和预测时间,保持较好的准确率,并可通过选择合适的阈值,进一步提升精确度。关键词: 微博 实时 线性模型 因子分析 加权模型分类号: G206DOI: 1013266 / jissn0252 3116201715015* 本文系教育部人文社会科学研究项目“社交媒体潜在舆情发现及导控机制研究”( 项目编号: 13YJCZH144 ) 和广东省攀登计划项目“大学生微博热点话题趋势预测系统”( 项目编号: pdjh2015a0471) 研究成果之一。作者简介: 饶浩( OCID: 0000 0001 9133 6025) ,副教授,硕士,E-mail: gdrh@sgueducn; 文海宁( OCID: 0000 0001 6991 9822) ,硕士研究生。收稿日期: 2017 04 14 修回日期: 2017 06 04 本文起止页码: 130 137 本文责任编辑: 易飞1 引言以微博为代表的社会媒体影响力越来越广泛,相关的预测系统也因诸多研究者的不断投入而日渐完善。起初大多学者将微博话题数据简单地看作时间序列样本数据,由此多采用自回归带控滑动平均、指数平滑法等来预测,这些方法对数据特征进行了多方位统计描述( 例如参数估计等) ,具有简单、短期预测效果佳等优势,但模型均无法反映非线性变化趋势成分,对随机变化特点明显的话题,预测误差极大,精度也无法满足舆情管理要求。此后出现了灰色模型、聚类分析等算法,虽考虑了上述灰色性问题( 具有模糊性、动态变化随机性、指标数据不完备或不确定性等特点的问题) ,但由于微博热点话题具有波动性、周期性,这样建模与实际情况也不大相符,预测误差仍较大。随着大数据、人工智能领域的理论和硬件设施的不断成熟,人工神经网络预测模型应运而生,其强大的非线性学习能力,可从海量数据中寻找数据变化规律,预测误差较小,但以 BP 神经网络为代表的传统神经网络存在学习速度慢、网络结构复杂等缺陷[1],仍无法广泛应用于实时告警和预警领域。其后有学者提出了极限学习机算法,比传统人工神经网络的训练速度更快、泛化能力更优[2],但其本质仍为建立非线性核函数,在计算速度上无法满足实际要求。例如,在银行或证券公司的数据中心,庞大的数据量可能导致集群发生故障甚至宕机,进而导致数据采集、解析延迟,目前均使用离线计算平台,即用前一天模型训练的参数预测第二天的值,其告警平台的准确度并不理想。基于以上情况,本文采取实时预测,在线性模型的基础上改为加权模型,增设调节因子,弥补线性模型无法解决含非线性因素导致的先入为主式的建模偏差,且在大多数数据中心均使用离线告警平台( 参数滞后,且在故障或者事故发生后才能产生告警信息、通知运维人员处理) 的情况下,对实时预警平台( 参数每 10 分钟更新一次,且在事故发生前就可发送预警短信至相关人员) 进行测试。2 微博实时预警模型的建立21 采集指标的选取微博话题预警分析的前提是微博话题的预测,采集相关数据的全面与否直接决定模型的预测准确度。而微博话题是否能达到预警的程度不仅取决于微博内容本身的热度,很大程度上取决于发布者的影响力。在新浪微博中,拥有 10 万以上粉丝的大 V 超过 19 031饶浩,文海宁. 采用实时线性模型的微博话题预警分析[J]. 图书情报工作,201761( 15) : 130 137.类结果进行检验。7 个有效指标依次为转发数、评论数、点赞数、发布时间、发贴微博用户 ID、话题与目标相似度、微博内容粘度率。话题与目标相似度可记为sim( uv) ,用 Jaccard 系数来度量。微博话题关键词集合记为 Wuv 用于标识微博用户 ID,话题与目标相似度计算公式如下:sim( uv) =| WuWv|| WuWv|( 6)公式( 6) k 的分子代表微博用户 u v 的公共热度话题词,分母代表微博用户 u v 的所有热度话题词。微博内容粘度率记为 CVate,特指在黄金时段,被关注时长超过 30 分钟的微博比例。其中黄金时段定义为 0: 00 1: 309: 00 10: 3012: 00 14: 3018: 0024: 00 4 个时段。统计每个微博用户 ID 的发布时间或转发时间、点赞时间、评论时间,并对应所属黄金时段,汇总位于黄金时段中的时间间隔,将关注时长大于 30 分钟的条数,记为 Often Num,汇总每个微博用户的发布或转发、点赞、评论操作的微博总条数,记为 To-tal Num,则微博内容粘度率 CVate 公式为:CVate =Often NumTotal Num× 100% ( 7)将上述 7 个变量作为自变量,用“有进有出”逐步回归分析。假定已有 c7 个变量( 指标) 被引入回归方程,如公式( 8) 所示:^W = β0+ β1P1+ β2P2+ + βcPc( 8)其中,βa( 0ac) 为常数系数,Pa( 1ac) 依次为 7 个变量,^W 为微博热点话题热度值。在衡量每个变量接近回归方程的程度时,定义平方和分解式为Stotal= U + Qe,设总的平方和( 定值) Stotal,设回归平方和为 U,设剩余离差平方和为 Qe。若增删一个变量后得到新的回归平方和 U2和新的剩余离差平方和Qe2,设 U2U 之差为 Va,则有: U2U = QeQe2= Va。定义增删变量 Pa后,记 Pa对回归平方和的贡献为 Va,用公式 Fa= Va/Qe/ ( k c 2) ]来检验 Pa影响是否显著,其中样品容量为 k,已选择的变量个数为 c。适当选取引入自变量的 F 检验,引入自变量时,求出 Fa最大值 max1a20Fa,将其与 F 检验临界值 Fadd比较。如果max1a20FaFadd,则新自变量入选; 剔除自变量时,求出Fa最小值 min1a20Fa,将其与临界值 Fdelete比较,如果 min1a20FaFdelete,则已引入的变量影响不显著,可删除之。增删变量过程中,综合考虑回归模型计算结果,包括 In-tercept、决定系数 R2F - 检验( 对每个变量) t - 检验( 对之前所有变量) 、剩余标准差 RMSE、调整的决定系数 R2以及检验的 P ( P Value) 。调整过程由 MAT-LAB 软件自行完成。算法流程如图 1 所示:1 逐步回归算法流程最后忽略缺少的变量逐步回归筛选出 3 个有效指标: 转发数、评论数、点赞数。与因子分析中将转发数、评论数和点赞数归为微博热度话题因子的结论相符,同理可另选包含粉丝数、级别认证和发布微博数的 7个指标验证大 V 影响力因子的合理性。233 微博话题热度和大 V 影响力因子的加权模型在 232 中得到 h Tiv Ti的含 7 个指标的线性表达式后,增加微博话题热度和大 V 影响力因子的权重调节因子 α,对每个用户的组合预测值 Pref Ti为一个不考虑时间影响的表达式( α 为微博热度话题因子和大V 影响力因子的加权参数,α ∈[01 ) ,如公式 9 所示:Pref Ti= h Tαi+ v T1 - αi( 9)当 α 取 1 时,预测值只与微博话题热度有关; 当 α取 0 时,预测值只与大 V 影响力有关。另外,从时间维度上考虑,每个大 V 账号在一周内发布的微博数不同,而每条微博在刚发布的两天内,转发量会达到几个小高峰,随后几天微博的转发量迅速下滑,即随时间地推移,微博热度迅速衰减。当离发布微博时间越来越久时,微博的传播影响力也逐渐减小,最后趋于 0。刘功申等[13]讨论随时间 t 的推移,普通用户对大 V 用户的微博的转发量下降,最终形成的时间加权模型的预测值是在不考虑时间的线性模型的基础上,与函数 et相乘,得到最终的时间加权模型。这种处理方法更适合离线计算,对本文建立的实时计算模型不适用。本文对时间 t 的取法为: 每次计算预测331

[返回]
上一篇:中国职业记者的微博实践与角色认知
下一篇:农业机械对劳动力替代强度和粮食产出的影响