gdelt2.0docapi客户端
gdeltdoc的Python项目详细描述
GDELT 2.0文档API客户端
从GDELT 2.0 Doc API获取数据的Python客户端。在
这允许对新闻报道进行更简单、小规模的分析,而不必处理从S3下载和管理原始文件或使用BigQuery导出的复杂性。在
安装
gdeltdoc
位于PyPi上,并通过pip安装:
pip install gdeltdoc
使用
支持ArtList
和{
物品清单
API的article list模式生成与过滤器匹配的新闻文章列表。客户端将其作为pandas数据帧返回,列为url
、url_mobile
、title
、seendate
、socialimage
、domain
、language
、sourcecountry
。在
时间线搜索
进行时间线搜索时有5种可用模式:
timelinevol
-与过滤器匹配的新闻报道量的时间轴,以GDELT监控的新闻文章总数的百分比表示。在timelinevolraw
-与timelinevol
相似,但有实际文章数和总数,而不是百分比timelinelang
-与timelinevol
相似,但按发布的语言将所有文章分解。每种语言都在DataFrame中作为单独的列返回。在timelinesourcecountry
-与{}相似,但按文章发表的国家分类。每个国家在数据帧中作为单独的列返回。在 timelinetone
-新闻报道的平均基调与过滤器相匹配的时间轴。有关音调度量的详细信息,请参见GDELT's documentation。在
过滤器
传递给API的搜索查询是从gdeltdoc.Filters
对象构造的。在
fromgdeltdocimportFilters,near,repeatf=Filters(start_date="2020-05-01",end_date="2020-05-02",num_records=250,keyword="climate change",domain=["bbc.co.uk","nytimes.com"],country=["UK","US"],theme="GENERAL_HEALTH,near=near(10,"airline","carbon"),repeat=repeat(5,"planet"))
keyword
、domain
、domain_exact
、country
和{
start_date
-必需-筛选器的开始日期,格式为YYYY-MM-DD。API官方只支持最近3个月的文章。请求更早的日期范围可能仍然返回数据,但不能保证。在end_date
-必需-筛选器的结束日期,格式为YYYY-MM-DD。在num_records
-要返回的记录数。仅在物品列表模式下使用,最多可使用250个。在keyword
-返回文章文本中包含确切短语keyword
的文章。在domain
-返回指定域中的项目。不需要完全匹配,所以通过”美国有线电视新闻网“将匹配来自cnn.com
、subdomain.cnn.com
和notactuallycnn.com
的文章。在domain_exact
-类似于domain
,但需要完全匹配。在country
-返回在一个国家或国家列表中发布的文章,格式为FIPS的2个字母的国家代码。在theme
-返回涵盖GDELT的GKG主题之一的文章。主题的完整列表可以找到herenear
-返回文本中包含彼此接近的单词的文章。使用near()
来构造。例如near = near(5, "airline", "climate")
。在repeat
-返回包含单个单词的文章,至少重复多次。使用repeat()
来构造。例如repeat = repeat(3, "environment")
。在
- 项目
标签: