分享好友 最新动态首页 最新动态分类 切换频道
数据浅谈微博评论异常流量和水军账号
2024-11-07 23:15

近年来,微博评论区的异常评论流量现象甚嚣尘上,背后是大量的营销账号的扰乱视听以及作为他们的傀儡的水军账号的推波助澜,本篇利用微博评论爬虫采集的公开数据,简单分析了这些现象的一些表征和原因。

以人民日报发表的关于 #吴亦凡被批捕# 这条微博及其评论数据为例子。

数据浅谈微博评论异常流量和水军账号

网页显示有近 18w 条微博,实际抓取去重后有 10w 稍有余的数据,包括根评论和回复,后文分析评论时,仅针对分析发博一天内的评论。抓取保存的评论字段信息如下:

第一步,可视化该条微博发布后一天内每分钟新发评论数量时间线。

每分钟评论数在短时间内指数型急剧上升,最后又以一象限双曲线形式下降,符合常理认知。同时可以看出,在发博时间 2021/08/16 20:30 过去 840mins,也就是发博 16 小时后,2021/08/17 10:30 时有个极大值,why?迫于本篇推送选题的压力,我马上想到了可能是水军账号这个时候营业了,但是我分析了这个时间段发布评论的用户,肉眼可见几乎没有水军账号。于是乎,我翻开了微博的历史热搜数据,发现在这个时间点,#都美竹感谢朝阳公安和粉丝# 这个话题冲到了热搜第一,很显然,是由于该关联话题的热度扩散到了这条微博。

如果查证历史热搜数据该时间点无相关热搜,且几乎没有观察到该时间点附近评论营销水军内容,那么下降曲线就会是完美的一象限双曲线;否则就需要确定是相关热搜或者是营销水军,亦或者是它们共同作用的结果。

第二步,怎么大致判断评论中水军账号呢,我的做法是 group_by uid。

分析结果显示,一天之内,一个账号最多针对该微博发布了 26 条评论,发布 10 条评论以上的账号多达 30 余人,这些账号具有一定的营销号或水军嫌疑,目前只能手动点开微博主页浏览去确定,长期地,我想输出一个模型,根据 uid 判断账号是否是营销号或者水军账号,目前的想法就是根据它的发博连续性,关注粉丝之比,账号新旧程序等维度考量,大家有好想法欢迎留言。

最后可视化每分钟评论的平均文本长度如下。

处理时去除了 html 标签表情等非文本内容,但是上图依旧有很大的锯齿,应该用中值滤波处理之,不过走势应该不会变。

参考附录

1、研究报告 | 微博评论中的水军异常流量分析:https://zhuanlan.zhihu.com/p/436967668

最新文章
如何有效利用百度购买关键词排名提升网站流量
青衣网络-www.ra0.cn:如何有效利用百度购买关键词排名提升网站流量目录:1. 理解百度关键词购买机制2. 确定目标关键词的策略3. 关键词竞价与优化技巧4. 监控和调整关键词表现5. 避免常见错误和陷阱6. 结语正文:理解百度关键词购买机制在
经验:百度收录规则与机制:运营专家分享亲身经历,提升收录率的秘诀
随着信息化时代的飞速发展,百度收录成为了每一位内容创作者难以避免的难题。本人身为一名具有丰富经验的运营专家,深谙百度收录规则与机制。今日在此,愿将亲身经历与众共享,期盼能为同业者带来有益的启示。百度收录的意义与现状首先要明
微信视频号链接地址怎么提取?4套方法都能用。
3. 点击链接中的保存视频按钮即可将视频保存到您的设备,或者直接提取视频号视频的链接。建议:选择在线视频下载器时,请确保选择合法可靠的网站,以避免安全风险。同时,在选择视频格式和质量时,根据您的需求考虑下载速度和存储空间。方
最新Q/W防洪跳转页面/微信小程序跳转到未备案域名
wwthyn.lanzoup.com/iJJ3f1hpcq2j使用教程: 1.上传插件网站根目录 2.打开khyy文件夹 修改index.php文件中的链接(url前面的0是跳转时间,可自行设置) echo 'html head     meta http-equiv="refre
苹果cms模板_我的主题网【第二十五套】精简宽屏大气苹果CMSv10模板DIY系列拆分版...
苹果cmsv10下载地址:https://www.mytheme.cn/maccms/243.html这款苹果cmsv10模板依然是DIY系列样式,优化重构了前期同系列的不足,添加了更流行的元素和设计风格,这是我们完全自主开发没用任何css框架且只针对影
SEO高手秘籍,网站搜索引擎脱颖而出之道
SEO优化高手通过深入理解搜索引擎算法,精准关键词研究,优化网站结构、内容和外部链接,提升网站质量和用户体验,从而让你的网站在搜索引擎中排名靠前,吸引更多流量。掌握这些技巧,让你的网站脱颖而出。探秘SEO优化基本原理精通SEO优化
seo优化面纱介绍 揭秘SEO优化面纱:提升排名的秘密策略
在当今这个信息爆炸的时代,互联网已成为企业展示自我、吸引客户、拓展市场不可或缺的重要平台而在这片浩瀚的数字海洋中,如何让您的网站脱颖而出,成为用户搜索时的首选,SEO(Search Engine Optimization,搜索引擎优化)优化无疑是一把
分析大型门户网站截取热门流量的SEO策略
一说到热门流量这个词,我想大家都会很快的想到利用热门话题或者热门事件来获取短期的高流量,在SEO里这种方式一般被称为截取流量,也就是利用SEO的方式来在短期内获得热门关键词的较好排名,从而获取短期的热门流量。比如网络上经常会出现
相关文章
推荐文章
发表评论
0评