用于从纽约时报文章检索注释的包,这些文章还用作NYT文章搜索的API包装器,并执行现已弃用的NYT社区API的功能

nytcomments的Python项目详细描述


该软件包包括三个主要功能,用于执行三项不同的任务,包括检索《纽约时报》的评论和文章,以便将数据集用于数据科学/机器学习项目:

  1. 主函数get_dataset返回两个数据帧-每个数据帧一个用于项目及其注释。检索可以基于多个可选参数来定制,例如文章的特定时间线、搜索关键字、基于许多选项的过滤查询,如一天的周、文章的词数、源等,对评论或文章数量或两者的最大限制,根据最新或最旧的文章按时间顺序对文章进行排序,选择禁止或激活进程的输出日志,选择将数据保存为两个csv文件,等等。此函数只返回对评论打开的文章及其评论。
  2. 函数get_articles可以用作nyt文章搜索api的api包装器。它返回已清理和预处理的项目数据,作为准备使用的pandas数据框(带有一个将其存储在csv文件中的选项)。检索可以使用与上面相同的选项进行自定义,与上面的函数不同,它返回满足搜索条件的所有文章。
  3. 函数get_comments检索给定url的nyt文章的注释。它可以用作纽约时报社区api中comments by url选项的替代品,该选项现在已被弃用,并且只返回由于unresolved issue原因而被选为编辑器选择的注释。与上述两个函数不同,此函数不使用NYTAPI进行检索。

依赖关系

  • Python3.4+
  • 熊猫
  • 请求

用法

fromnytcomments.nytcommentsimportget_datasetarticles_df,comments_df=get_dataset(ARTICLE_API_KEY,page_lower=0,page_upper=2)

请参阅tutorial here以了解三个函数get_datasetget_commentsget_articles的说明以及有关函数参数的详细信息。函数get_datasetget_articles需要使用nyt api密钥,该密钥可以通过在NYT developers’ site注册获得,而get_comments则可以在没有api密钥的情况下使用。您必须同意Terms of Use才能让nyt文章搜索api使用密钥。

注:纽约时报文章在2017年1月-5月和2018年1月-4月发表的评论数据集为available on Kaggle,截至2018年4月28日为top among the 20 featured datsets

确认

  • 用于从函数get_comments中的给定项目检索注释的url取自blog by Neal Caren
  • NYT文章搜索API用于文章搜索。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java:如何使用另一个类中的对象   如何在Java中迭代旁遮普语(阿拉伯语)?   类Java嵌套ArrayList返回对象   java正则表达式以匹配“:”之后包含的字符串   java为什么main()很好地显示“Lukaku”并包含_names()返回null?   java嵌套循环,无法理解如何编写此代码   java使用maven动物嗅探器插件检查自己的API   java上传的文件创建保存以备将来在GWT服务器端使用   java转换为Dalvik格式失败65536限制   Java后端的javascript最佳RIA工具   amazon web服务如何将tar文件从amazonS3 bucket提取到Java中的另一个s3   java如何在hibernate搜索中实现对int值的搜索?   使用Maven初始化引导层JavaFX时发生java错误   java Google登录API例外:10:   java Glassfish 3.1.2加载本机库(.dll)   java在join操作中使用TumblingWindow,但没有将任何元素传输到my JoinFunction   IBatis+Java:检索HashMap   多线程java与scala在单独线程上读取文件