10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”(下)

   日期:2024-12-26    作者:b1216079 移动:http://oml01z.riyuangf.com/mobile/quote/50401.html

不必羡慕什么“技术流”,即使是不懂技术和复杂数学知识的你,照样能成为新媒体运营领域的“增长黑客”!因为创造性思维和强烈的好奇心会给你带来好运的,等到工具、技能和思维三者融会贯通的时候,就会像独孤求败那样-“不滞於物,飞花草木皆可伤人,草木竹石均可为剑”!

10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”(下)


上篇推荐:《10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”(上)》

俗话说:“文不如字,字不如表,表不如图”,一张富含信息量且外观时尚靓丽的图会给文章增色不少,会激起读者的好奇心,不知不觉的去图片中探寻信息,从而让文章的可读性大大增加,易于传播。比如这张图:

人人都是产品经理网站“产品经理”专栏所有文章标题制成的词云

怎么样,想学了吧?

不急,这个其实很简单,下面我将以实例详细的讲解制作这张图的步骤,即使是小白的你,也能做出这样精美的个性化词云。

我把个性化词云的制作分为3个步骤,即抓取数据、文本处理和词云制作,详见下图:

个性化词云制作的步骤

从本质上讲,词云是反映某一特定主题的文本数据的可视化展示。比如,上面的乔帮主词云反映的就是“产品经理”专栏中较为热门的关键词/话题。所以,要制作一个“出彩”且有内涵的自定义词云,文本不能无规律,需要定向的获取特定的文本数据。

笔者对前不久上映且广受好评的电影《你的名字》颇感兴趣,想分析一下这部电影的市场反响如何,先聊聊这部分数据的获取。

对于影片的分析,首选当然是豆瓣电影,因为它是国内最具有参考价值的影评网站,从文本中能得到很有价值和有意思的信息。但考虑到文本数据获取的难易程度,我先介绍如下3个数据获取的方法:

(1)自己编写爬虫,想要什么数据就去抓取什么数据,既经济(用爬虫工具会花钱),又会增加“自己动手,丰衣足食”的成就感,最重要的是,略施小计就可以躲避豆瓣的封IP机制。

用python编写爬虫抓取豆瓣影评数据

(2)利用集搜客这样的爬虫软件去抓取数据,不需要编程技术,且简单易上手,但是可能会被封IP。

(3)采用新浪微舆情这个大数据工具,因而不用豆瓣的评论数据,在互联网上进行全网信息搜集,获取有关该影片的热门文章标题作为分析的文本数据,这种方法是三种中最为轻松简单的,而且获取的是全网的数据,大家可以有选择性的选取自己需要的数据,操作步骤如下图所示:

用新浪微舆情获取文本数据

因为最近学了点Python,故笔者选择了用Python编写爬虫来获取了豆瓣这部分的影评数据。

获取《你的名字》豆瓣电影的影评数据

抓取后的数据整理成如下表格:

保存到本地的《你的名字》豆瓣影评数据

接下来,就是把文本数据单独取下来咯,全选“评论内容”这一列,把这些影评数据占到记事本上,作为接下来分析的“原材料”。

一般情况下,文本数据的处理包含很多方面,如分词、词性标注、词频统计、文本分类、情感分析、关键词提取、文本摘要提取等。

在这里,制作词云只需要考虑关键词提取和词频统计这两个板块。

这里使用到的工具是前面提及的热词分析工具---图悦。将《你的名字》豆瓣评论的文本部分粘贴到上图中左边的文本框中,再点击右上方的“分析出图”,系统显示完成后,右边的预设词云会发生变化,此时点击“导出”,即可得到词频的csv文件。

经图悦处理得到的词频csv文件

这里去除词语和词频两列,用来进行接下来的词云制作。

处理词云,笔者用到的工具是Tagul。下面是它的的主页展示:

Tagul主页

(1)词频载入格式

在页面左上方的“Words”处,就是加载词语及词频的地方,这里需要注意一下它的载入格式。,如下表所示:

Tagul的词频载入格式

上表中,前两列的“Word”和“Weight”就是刚才经处理过的词语和词频,Color一栏则是设置该词语的颜色,这是个性化词云中很关键的一个要素,会直接影响到最终的词云呈现效果。这里可以不填写,那么在形成词云时默认随机生成颜色。如果要形成定制化的颜色,则需要设置采用16进制的色值,以下是常用的颜色代码表,即色值表。

常用的16进制色值表

与此类似,字体也可选可不选,需要定制的话,则可进行相应的设置。

“Repeat”这项则表示该词语是否会重复出现,填写“0”,则表示不重复,填写“1”,则表示重复。为了保持信息的精准度,减少噪声,一般选择填写“0”。

后面的URL链接就忽略了,因为有前面的设置,就不需要进行网页链接。

按照上述操作,出词语和词频两例外,笔者还定制了“Color”和“Repeat”这两项,结果显示如下。

最终的词语载入表

全选该表格的文字部分,将其粘贴到“Import Words”的文本框里,进行保存。

(2)载入中文字体

因为Tagul是老外做的一个在线词云制作网站,所以Tagul不支持中文,这需要我们载入能支持中文显示的字体,如下图所示,笔者载入的是“You Yuan(幼圆)”字体。

载入中文字体

(3)处理背景图片

加载了字体,可以说这是个性化词云制作的核心部分,词云最终效果的美与不美就在此一举。

值得注意的是,在载入图片之前的图片选取步骤时,需要选择背景和主题对比比较明显的图片。从接下来的图片预处理过程中,你会发现这一点的重要性。

词云自定义图片的初始状态

笔者选取的是《你的名字》最为标志性的一张海报,看起来很有感觉:既有男女主角的形象,也交代了他们所处的生活环境,中间则是影片中重要的提条线索---彗星。这张图初始状态看似杂乱,不好处理,但仔细观察,可以发现主体(男女主角)和背景(天空、城市和彗星)之间的对比度和色相差异还是很明显的。在Tagul的“Custom Shape”的设置中可以进一步处理背景和主体之间的对比度问题。

在“Shapes”处载入图片后,点击上载成功后图片的右下角“齿轮”,打开图片预处理。其中,“Threshold”处理景深,可以拉开/缩小背景和主体之间的差异;“Edges”则是处理主体轮廓的锐度,可以调节图片的清晰程度模糊程度。这里的要点是---淡化背景,清晰主体轮廓。

淡化背景,强化主体轮廓

好了,完成上面繁琐的步骤之后,现在是见证奇迹的时刻了,点击右上方大大的黑体字“Visualize”,待进度条加载完毕后,即可得到如下的最终效果图:

最终的词云效果图

Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件, 其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具,下载地址为https:///。网上目前比较权威的Gephi教程是在Udemy上的Ooof liu讲解的《Gephi中文教程》,地址为https://wwwhttp://www.360doc.com/content/17/0606/15/gephi/,看完这个部分仍有饶有兴趣的小伙伴可以去学习下。

下面是由Gephi制作的各种网络图,这些图不仅包含了丰富的信息量,而且极富美感,在吸引眼球的同时还给予我们有意义的信息。

各种由Gephi制成的网络图

Gephi是一款信息数据可视化利器,它的一般应用场景如下:

  • 探索性数据分析
  • 链接分析
  • 语义网络分析
  • 社交网络分析
  • 生物网络分析

以下简单介绍下它的使用方法。

在操作下面步骤之前,先去Gephi官网上下载最新版的0.9.1 version,这是免费的,且支持中文,还有丰富的插件下载,这简直是数据可视化爱好者的福音!

值得注意的是,这款软件是用Java编写的,所以需要安装Java环境,这个有点磨人。演与演员的关系作为分析对象,来详细解读如何制作一个“秀外慧中”的社交网络可视化图谱。

Gephi的源数据可以在excel中完成。在excel中,仅输入2列即可,表头严格按照Gephi的格式来制作,第一列为“Source”,第二列为”Target”。下面以豆瓣上评分6以下的国内电影的导演(选取的是张艺谋、陈凯歌、冯小刚等大家耳熟能详的导演,演员随之确定)和演员关系表为例,做成如下格式:

在Excel上编辑Gephi的源数据

做好源数据之后,记得保存为CSV格式,Gephi仅能读取这种格式的数据。

在导入数据时,分别在“分隔符”、“如表格”、“格式”这三个选项下选择“逗号”、“边表格”、“GBK”。接下来点击“下一步”,完成数据的导入。

在Gephi中导入csv数据

刚打开“图”,也就是网络图的图形界面时,这几百个节点“蜗居”成一团,有点盘古开天辟地前“浑沌如鸡子”的感觉,但这个模样离我们心中的审美还有很长一段距离呢。

初始状态的网络图

不过,不用着急,下面几个简单的步骤就能让它“脱胎换骨”,完成华丽的变身。

在左上方的“布局”栏目中,选择其中的任一算法,并可以在下方的操作界面修改默认算法参数,也可使用默认的参数。单击图中运行按钮,布局算法生效。

选择“布局”中的算法

选择不同的“布局”算法,网络图的形态就会有相应的变化,以下是其中最为典型的集中算法及其拓扑图。

各种“布局”算法的网络图拓扑形态

在这里,笔者选取由“Frunchterman Reingold”算法确定的呈蒲公英花朵状的结构作为初始形态。

网络布局做好后,我们完成了这个网络图的“骨架”搭建,下一步则需要对它的外表进行修饰,包括节点、边和背景等部分的美化。

在这里,我们可以对网络图进行“美容”,给它着上靓丽的颜色和合适的背景作为衬托。

如下图所示,我们可以在“外观”一栏对节点和边进行着色,然后在下方选择合适的背景,要注意节点、边和背景之间的色差和对比。

给节点、边和背景选择合适的颜色

还需要注意一点,沿着“外观”>“节点”>”数值设定”这一路径,让节点根据连接数的多少而显示相应的大小,使该网络图更有层次感;同理,可以对边进行类似的设定,则两个联系紧密的节点间的边将变得更宽。

经过调整后,可以得到如下的网络图。

颜色调整后的效果图

经过上述几个操作步骤之后,网络图还需要加入最为重要的一项内容---标签,也就是前面提及的导演及演员的姓名,反映在节点上,由此完成他们之间的社交网络图的基本绘制。

沿着“窗口”>“预览设置”的路径,打开“预览设置”,界面显示如下。其中,需要在“节点标签”这部分完成字体的选择,把默认的西文字体变为中文字体。除此之外,此处还可以进行边框、字体大小、颜色、透明度等的设置。

在“预览设置”中设置中文字体

完成上述选项后,还需要在软件界面的下方,点击一下左下角那个大大的“T”,则节点标签就会显现,旁边也有些字体调节钮,大家可以摸索下。

在“布局”中,选择“标签调整”算法,得到下图:

最终效果图

图中各个节点的字体随节点的重要性(由度、连入度或连出度确定)而呈现出不同之大小。所以,大家先看文字,了解其中最为突出的一些演员和导演,其次在看他们之间的关系。

笔者比较懒,这个网络图其实还可以进行更深入的优化的,有兴趣的小伙伴可以尝试着做得更绚丽一些。

数据地图,在Excel2013版及以上中都有三维地图,还有一些BI工具中也集成了这个模块,当然也有专业的地图GIS软件,如地图慧、智图等。由于笔者之前写过一篇关于数据地图如何运用的文章,在此不再赘述,详见《运营实操|15分钟学会数据地图分析》。

好了,上面的工具部分介绍完毕,该进入最终的收尾阶段了。在某种意义上讲,上面介绍的若干工具都是为接下来的“数据新闻”部分做准备---它们是数据新闻中不可获取的一部分,是数据新闻内容呈现的重要“武器”。

在正式介绍数据新闻之前,笔者先聊聊,为什么需要数据新闻这种新型的新闻报道方式。

这里,笔者引用美国Northwestern University人文与社科学院的Prof BrianKeegan的一段话作为注解:

在当代,对于信息过载,以及恐惧、不确定性和怀疑等情绪的焦虑氛围下,数据驱动的新闻可以起到关键性的作用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。

由此可见,信息过载、信息失真和现实世界广泛存在的不确定性,导致人们不再相信没有充分依据的信息,因而数据新闻这种更有说服力的信息载体呼之欲出。

数据新闻,又叫数据驱动新闻。是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。它致力于从海量数据中发现新闻线索,或是抓取大量数据拓展既有新闻主题的广度与深度,最后依靠可视化技术将经过过滤后的数据进行融合,以形象化、艺术化的方式加以呈现,致力于为读者提供客观、系统的报道以及良好的阅读体验。

目前,在大数据新闻制作上已经积累了经验的国际媒体有《卫报》《纽约时报》《华盛顿邮报》等。

以下是常见的数据新闻呈现方式:

不同类型的数据新闻

需要注意的是,数据新闻不一定非得要复杂的数据来呈现事实,表现出很高的逼格。在很多时候,简单的描述性数据即可,就像下面的一个示例一样,数据图表的呈现让读者更加清晰、直观的了解到西藏班在“量”和“质”上的变迁,是“绿叶”,而内陆西藏班的整个发展历程才是真正的“红花”,是该报道的主线。

一张图读懂“内陆西藏班”

一般情况下,数据新闻有如下3种形式:

数据新闻体系下的新闻叙事讲求客观理性和逻辑性,从数据视角来看待事件与社会话题的方方面面,加之以形象具体的可视化图表作为最后的呈现方式,使读者对内容的真实性和价值性产生信任。

以下是标题为《23萬投票紀錄 回顧第五屆香港立法會》的数据新闻,下面选取了该文中一些具有代表性的数据图示。

《23萬投票紀錄 回顧第五屆香港立法會》数据新闻中的一些图示

从上图中,在运用数据图示的同时,借助数据分析的方法,从多维度总结了议员的投票行为。这种基于数据的的表达,比起单纯的文字报道来,表现清晰,说服力强。

一个孤立的事件当中的少量信息往往缺少关联度,但如果从正确的角度观察却能发现极为重要的价值。透过数据,内容运营者可以发现仅凭知觉和传闻难以感知的、隐藏在事件/新闻背后线索或假设,抽丝剥茧、言之凿凿的把事件的来龙去脉和其中缘由讲述透彻。

2016年7月25号在DT财经上有一篇文章,文章标题为《10万条挂号大数据显示:互联网也救不了看病难》,文章中全篇引用了挂号网各个维度的一手10W数据。采用循序渐进的逻辑描述并分析看病难互联网也很难解决这一难题。重要的是,作者将这些数据制作成可视化的数据图表,从挂号网注册医院分布、支持网络预约功能的医院占比到预约挂号量超10万的医院和人数分布情况,最后到患者参与分享的比例及对候诊时间的满意度分析,将这些数据转化为数据地图、点状图、旋风图和趣味条形图等可视化形式呈现出来。

《10万条挂号大数据显示:互联网也救不了看病难》中的可视化图表

从这个例子可以看出,数据新闻的报道方式能够在宏观上对某个事件看得更加清楚与全面,事件复杂的演进过程以及这个过程中的各个方面,都能描述得直观且有趣,最重要的是,很能让异见者服气。

通过数据的挖掘和分析,寻找出有价值的相关性,继而增加对相关事件发展趋势的预测性,新闻和数据相结合创作出精确和深度报道,成为大数据时代的新闻业务发展方向。

下图是CNN在今年7月份关于美国总统大选预测的数据新闻,全篇大篇幅的介绍了当下美国社交媒体上各州对候选人的支持情况、通过复杂算法得出的候选人各州获胜的概率以及哪个州对于总统选举具有决定性意义等。

CNN在2016年7月份关于美国总统大选的预测(局部)

数据新闻学是一门交叉的学科,数据新闻的产生给传统的新闻工作者提出了挑战,传统的新闻创作理念和方式,要求新闻工作者具备采写编评等基本专业技能,但目前已无法满足大数据时代下数据新闻的创作。

要做好数据新闻,需要运营者着重提升以下4个方面的素养/能力:

数据新闻需要大量的数据、数据分析处理,不仅仅是要有技术水平,更需要一双慧眼,分得清“真数据”和“假数据”,而且还要选择重要的数据和信息进行内容输出,为受众提供更细致、精确的事件分析,又快又准的报道新闻,数据新闻的把关在数据时代更为重要。

媒体工作者需多渠道的收集数据。从公开的数据库或者是政府部门、企业、机构中获取数据,从这些海量信息中判断和选择有表现力的数据。当媒体工作者获取数据之后,便开始处理和整合数据。将与新闻报道无关的数据筛选、过滤后,剩下有用的数据进行整合汇编,形成新的报道内容。

新闻工作者通过数据的挖掘和分析,寻找出有价值的相关性,继而增加对相关事件发展趋势的预测性,新闻和数据相结合创作出精确和深度报道,成为大数据时代的新闻业务发展方向。

在如今信息爆炸的大数据时代,特别是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。大量的数据和信息摆在新闻工作者面前,传统的计算机无法处理大量的、无规律的数据,需要云计算进行分析、处理、统计。

因此,对于当今的新闻工作者提出了更高的要求,必须熟练运用计算机,掌握一门编程语言。如果之前没有编程基础,推荐python,它的设计哲学是“优雅”、“明确”、“简单”,掌握一些常用的爬虫包、数据分析及可视化包以及自然语言处理包,就能很好的将大量的数据和信息进行友好的呈现。

数据新闻与传统的文字图片新闻不一样,数据新闻需要大量的数据,新闻工作者可以通过数据发现问题、提出问题,也可以先有了问题之后,再去收集相关的数据。而拥有大量数据后,必须对其进行分析和处理,将不需要或不相关的数据过滤掉,剩下有价值的数据加以分析整合,供新闻编辑使用。德勤在美国华盛顿特区的研发创新团队招聘数据记者,其中最重要的要求就是要具备分析数据的能力,由此可见,数据新闻记者必须具备较强的数据分析和处理的能力,才能胜任此工作。

数据新闻的可视化表达为新闻行业注入了一股新鲜的血液,让数据新闻充满希望与活力。数据新闻的可视化图片将不同的时间和空间联系在一起,将繁杂的数据简单化,便于受众理解,更有利于受众参与其中,满足不同受众的各方面需求。数据新闻的可视化是其一大特点,因此对于新闻工作者来说,应熟练掌握可视化技术,学会识图制图以及各种表格的制作。

最后,笔者介绍一个数据新闻的资料库,在这里小伙伴们可以看到国内外许多优秀的数据新闻案例,要做优秀的数据新闻制作者,首先从模仿学习做起。

数据新闻信息库链接地址:http:///showcase/


好了,看到这里的小伙伴,我几乎可以断定是真爱了,希望你们能掌握好这些“工具”,成为运营领域的“增长黑客”,不必羡慕什么“技术流”,因为创造性思维和强烈的好奇心会给你带来好运的,等到工具、技能和思维三者融会贯通的时候,就会像独孤求败那样:

不滞於物,飞花草木皆可伤人,草木竹石均可为剑”!

  1. 范冰,《增长黑客》
  2. 新浪微舆情官网官方介绍
  3. NLPIR在线系统官方介绍
  4. IBM Watson Tone Analyzer官方文档
  5. 百度百科“数据新闻”词条
  6. CNN在2016.07美国总统大选预测网站
  7. FT数据新闻网


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号