分享好友 最新动态首页 最新动态分类 切换频道
分析世界新闻:通过谷歌查询系统探索GDELT项目
2024-11-10 13:37

用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?

分析世界新闻:通过谷歌查询系统探索GDELT项目

由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。

由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDELT的结构必须支持有效存储和获取数百万维度信息。此外,越来越多的查询将针对整个文档范围内的宏观层面的查询。鉴于常规查询甚至都需要运用复杂算法才能处理TB字节的数据,所以数据库内执行也就变得非常必要。

作为一个倡议数据开放的活动,GDELT项目的目标就是使其数据更加快捷、自由地呈现在世人面前。然而,该数据的量级和特征给分享带来了很大困难。我们正是要通过Google BigQuery(谷歌查询系统)平台来帮助用户获取和查询这一不断增长的数据库。本文将讨论GDELT和谷歌查询系统如何共同致力于应对世界新媒体,这一数据分析学的新挑战。

GDELT项目是什么?

GDELT 项目使用与全球合作伙伴合作开发的大型新媒体库,它对全球每一个可获取的印刷品、广播和网上新闻报道进行实时监控,并特别监控那些以当地语言报道的当地新闻。GDELT监控的每一篇文章首先经过机器翻译成英语(一小部分材料为人工翻译),然后通过大量的算法渠道进行加工。这些算法可以识别数百种事件(从抗议到和平呼吁),数千种情感(从焦虑到激动),数百万种叙事主题(从女权到获得清洁水源)以及地点、任务、组织和其他指标。

然后这种以编码形式存在的源数据(并非文章的实际文本)以一种开放的数据流形式发布,每15分钟更新一次,形成一种多语言、带注解的全球新闻索引。将背景引入该实时数据流也是经过同样的一系列加工过程,其中包括涵盖JSTOR、DTIC在内、近二百一十亿字、长达七十年的学术文献和近一百七十亿字的网络PDF文档;五十年的世界人权报告记录;五十万小时的美国电视新闻;还有近二百年内出现的书籍。

Google BigQuery谷歌查询系统又是什么?

谷歌查询系统是一个基于云的分析数据库,其创建是为了服务于像GDELT这样的海量数据源。通过使用谷歌的基本架构,它将数PB字级的数据组和十万亿行的文档数据转化为结构化查询语言(SQL)。查询通过编程接口进行提交,并以标准的SQL表达出来,该结构化语言还可通过用户设定的Java程序语言功能进行扩展并用于高级搜索。每天数百太字节(TB)的新数据(批处理和流运行)经客户载入大查询系统后便可供即时查询使用。数千个处理器可同时用于一次搜索,无需检索或分隔数据即可快速显示结果。

GDELT项目如何通过谷歌查询系统应对大数据挑战?

鉴于GDELT数据组的巨大数量级和繁多的种类,分享渠道也是一大难题。从三亿一千万行五十九列的传统表到每行数百万维度乘以数百万维度并实时增长的高流动性表,什么才是分享万亿个数据点数据库的最佳方式?尽管所有的数据在网上都有CSV文件格式可供下载,而有磁盘和处理能力去下载TB字节数据并有效查询和分析的人却是寥寥无几。这也就是谷歌查询平台特别符合GDELT的需求之处。谷歌查询平台的下列特征使用户能够有效地与GDELT数据组进行互动:

运营中的谷歌查询平台和GDELT

谷歌查询平台几乎能够使实时搜索GDELT的海量文档成为现实,并以互动的方式查询、分析并形象表达文档的观点。通常,谷歌查询平台可用于观察一国的抗议或冲突的纵向趋势,把当前的动荡放在其历史背景下分析。例如:图一表示了智利自1979年以来的动荡,看出1983——1998年皮诺切特政权的起义运动出现的高峰值、十年后1998年10月皮诺切特被捕的动荡和国家自此以后的稳定。最近这一方法还用于对比过去四十年来欧盟境内的反动趋势。该种分析的优势就在于能够尽览几十年间发生的数百万全球事件,并快速生成对某一个国家稳定性的量化时间表,准确表示动荡局面的起起落落。

图一:借GDELT和谷歌查询平台之眼看到的智利国家的稳定幅度(Y轴代表不稳定强度)(贡献者:菲利普·霍法)

另一个GDELT数据组则是记录了每一个被监测新闻文章中所有的任务、组织、地点、主题和情感类型,据此信息构建了一个大型的源数据索引。仅仅通过SQL语言,谷歌查询系统便浏览了一亿五千万条新闻记录,编纂了一千五百组姓名,这些姓名在希腊救助公投的新闻报道中均高频同时出现。

该行为在几秒钟内即可完成。然后谷歌查询系统输出了能将Gephi可视化的CSV文件,并合成了如图二的网络图表。这种图表使用户能够快速了解某一个话题是如何在世界新闻媒体中呈现,中心人物是谁以及他们是如何相互产生联系等。在本例中,例如德国的Angela Merkel和Wolfgang Schaeuble、卢森堡的Jean-Claude Juncker和法国的Francois Hollande等欧盟领导人的关键作用都在图中清晰可见。

图二:2015年7月1日至15日希腊新闻报道中高频出现人物网络图 (贡献者:卡列夫·李塔鲁/GDELT)

GDELT常用谷歌查询系统的另一个方式就是在特定主题上下文中定位。谷歌查询系统的用户利用Java语言设定功能使任意复杂的应用作为查询的一部分,例如嵌套循环,以及在一个文件中将每个主题与其最近位置相连等,以使整个分析途径在谷歌查询系统中能独家运行。图三中,在有关2015年2至6月野生动物犯罪的背景中提到的定位都用CartoDB绘制了出来。该图已被用来表示野生动物犯罪的广泛性。其他由GDELT和谷歌查询系统生成的地图还包括:反坦克武器、气候变化、200年记录、希腊债务危机以及伊斯兰国有关的背景定位等。

图三:2015年2月至6月全球野生动物犯罪新闻报道中提到的地点在全球范围内的定位 (贡献者:卡列夫·李塔鲁/GDELT)

毕尔巴鄂比斯开银行(BBVA)跨国新兴市场组织的研究人员,运用GDELT和谷歌查询系统已经做出了从当前的欧洲难民危机(见图四)到更加复杂的社会动荡动力学建模等方面的一系列分析。在下图中,BBVA跟踪了今年上半年欧洲和北美范围内难民的流入(橘色)和流出(红色)情况。这种将从数百万新闻报道中发现的趋势,并以清晰的图形方式呈现的方式,表达了对事件的批判性观点,预测了近期有可能造成重大动荡与不安之危机的地理分布。

图四:2015年1月14日至6月15日欧洲和北美范围内难民流动图 (贡献者:BBVA跨国新兴市场集团,已获使用许可)

研究的未来

GDELT项目由高度多样化的数据模型、实时与历时查询、数据库内计算和含有数十万亿数据点的开放性可获得数据组组成。因为它们开始接纳大数据——云服务,这就是传统上和社会科学领域一样的“小数据”领域的研究未来,例如谷歌查询系统,将能直观地处理缩放和数据管理,使研究人员专注于解答问题,进而激发新观念、启发新思考。

翻译:灯塔大数据

最新文章
GP人工智能网页版的易用性分析
GP人工智能网页版的易用性分析可以从以下几个方面进行详细探讨:个性化推荐:通过分析用户的浏览历史、兴趣偏好等数据,智能网页能够为用户提供个性化的内容推荐,提升用户体验。以GPD人工智能网页版为例,它利用先进的推荐算法,根据用户
预告丨跨年狂欢,来殷墟就够了!
与万千同城网友一起聚焦安阳!建站18年 | 关注民生丨服务生活点此亲启致过去一年亲爱的自己站在岁末的路口回首望去每个人都走过了一段时光的路有过春日里的希望萌动也有夏日骄阳下的炽热奔忙可能秋日的落叶写着失落与怅惘但是只要把掌心贴
普通下载url与迅雷快车旋风下载地址转换原理分析
例如华军winrar 3.71的下载地址是普通下载url与迅雷快车旋风下载地址转换原理分析_千里疯狂 http://p2s.newhua.com/down/wrar371sc.exe 1、普通地址转换为迅雷地址 在原地址前面加”AA”,后面加”ZZ”(注:不包括引号),
《SEO推广秘籍:揭秘如何打造搜索引擎营销的视觉革命与媒介深度》(SEO推广秘籍如何让你的网站一夜爆红)
:SEO推广:揭秘提升网站排名的秘密武器随着互联网的快速发展,越来越多的企业开始重视网络营销,而SEO(搜索引擎优化)推广成为了企业提升网站排名、增加流量的重要手段。那么,SEO推广究竟是如何工作的?又有哪些方法可以帮助企业提升网
10个神级插件, 让Edge成为全世界最爽的浏览器
创作立场声明:个人日常工作技巧分享, 神级插件让Edge效率起飞大家好, 我是胡侃侃。Microsoft Edge 浏览器毫无疑问是2020年最棒的浏览器产品,在此之前,相信绝大部分人心中最好用的浏览器是Chrome浏览器,它简洁、快速、稳定、而且有着
google注册帐号用过多次如何注册?
*温馨提醒 :如果您在注册申请google谷歌gmail邮箱账号时遇到了:此电话号码无法用于验证、此电话号码验证次数太多、账号您无法注册的问题;您可以这样解决!【解决方案】手机安装「 词令 」App,打开后输入口令「 账号99 」,搜索直达该口
杰奇建站CMS1.7免费版:小说连载网站的构建利器
杰奇建站CMS 1.7是一款针对个人及小型企业的免费内容管理系统(CMS)。它的设计旨在提供易于安装和使用的界面,使用户能够快速构建和维护网站,无需深入的技术知识。本章节将介绍杰奇CMS 1.7的基础功能以及它的特
SEO网站如何更新,提升搜索引擎排名的策略与技巧,优化SEO,提升搜索引擎排名的关键策略和技巧
随着互联网技术的飞速发展和网络营销的广泛应用,SEO网站优化已成为企业提高在线可见度、扩大市场份额的重要手段,在SEO实践中,有些企业和个人会忽视对SEO网站进行定期更新,导致网站收录量降低、搜索引擎排名下降甚至无法在搜索引擎中找
AI Weekly『11月11-17日』:Kimi发布新一代数学推理模型,腾讯推出AI工作台ima!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,A
相关文章
推荐文章
发表评论
0评