gdelt2.0docapi客户端

gdeltdoc的Python项目详细描述


GDELT 2.0文档API客户端

GDELT 2.0 Doc API获取数据的Python客户端。在

这允许对新闻报道进行更简单、小规模的分析,而不必处理从S3下载和管理原始文件或使用BigQuery导出的复杂性。在

安装

gdeltdoc位于PyPi上,并通过pip安装:

pip install gdeltdoc

使用

支持ArtList和{}查询模式。在

^{pr2}$

物品清单

API的article list模式生成与过滤器匹配的新闻文章列表。客户端将其作为pandas数据帧返回,列为urlurl_mobiletitleseendatesocialimagedomainlanguagesourcecountry。在

时间线搜索

进行时间线搜索时有5种可用模式:

  • timelinevol-与过滤器匹配的新闻报道量的时间轴,以GDELT监控的新闻文章总数的百分比表示。在
  • timelinevolraw-与timelinevol相似,但有实际文章数和总数,而不是百分比
  • timelinelang-与timelinevol相似,但按发布的语言将所有文章分解。每种语言都在DataFrame中作为单独的列返回。在
  • timelinesourcecountry-与{}相似,但按文章发表的国家分类。每个国家在数据帧中作为单独的列返回。在
  • timelinetone-新闻报道的平均基调与过滤器相匹配的时间轴。有关音调度量的详细信息,请参见GDELT's documentation。在

过滤器

传递给API的搜索查询是从gdeltdoc.Filters对象构造的。在

fromgdeltdocimportFilters,near,repeatf=Filters(start_date="2020-05-01",end_date="2020-05-02",num_records=250,keyword="climate change",domain=["bbc.co.uk","nytimes.com"],country=["UK","US"],theme="GENERAL_HEALTH,near=near(10,"airline","carbon"),repeat=repeat(5,"planet"))

keyworddomaindomain_exactcountry和{}的过滤器可以作为单个字符串或字符串列表传递。如果传递了一个列表,则列表中的值将包装为布尔型或。在

  • start_date-必需-筛选器的开始日期,格式为YYYY-MM-DD。API官方只支持最近3个月的文章。请求更早的日期范围可能仍然返回数据,但不能保证。在
  • end_date-必需-筛选器的结束日期,格式为YYYY-MM-DD。在
  • num_records-要返回的记录数。仅在物品列表模式下使用,最多可使用250个。在
  • keyword-返回文章文本中包含确切短语keyword的文章。在
  • domain-返回指定域中的项目。不需要完全匹配,所以通过”美国有线电视新闻网“将匹配来自cnn.comsubdomain.cnn.comnotactuallycnn.com的文章。在
  • domain_exact-类似于domain,但需要完全匹配。在
  • country-返回在一个国家或国家列表中发布的文章,格式为FIPS的2个字母的国家代码。在
  • theme-返回涵盖GDELT的GKG主题之一的文章。主题的完整列表可以找到here
  • near-返回文本中包含彼此接近的单词的文章。使用near()来构造。例如near = near(5, "airline", "climate")。在
  • repeat-返回包含单个单词的文章,至少重复多次。使用repeat()来构造。例如repeat = repeat(3, "environment")。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java从Dropwizard中的Minio检索文件时,GET请求中的超时是如何处理的?   带Hibernate的java Jackson用于序列化以避免枚举   Raspberry Pi上的java Jave分段错误   java在屏幕旋转时不保存当前片段和数据   java War文件未在Heroku上正确部署   如何使用Java处理Selenium webdriver中的促销广告或cookie   java处理“用法:PApplet[options]<classname>[sketch args]”   java文本文件错误扫描程序   运行第一个JavaFX模块化程序时出现java异常   java将fileoutputstream转换为字符串   如何调试gstreamerjava?   java Spring RestTemplate ResponseBody类是什么样的   如何将JSON数组转换为Java列表。我在用斯文森   javascript在显示div按钮后进入新页面