GNIP历史图书馆和命令脚本。

gnip-historical的Python项目详细描述


python库和用于gnip历史powertrack api的命令行实用程序步骤:
1)创建作业
2)检索和审阅作业报价
3)接受或拒绝作业
4)下载数据文件列表
5)下载数据


包括不完整项,以帮助执行每个步骤。


安装实用程序
===
首先,设置您的GNIP凭据。有一个简单的实用工具可以创建名为".gnip"的本地凭据


$./setup_gnip_gnip creds.py
用户名:shendrickson@gnip.com
密码:
再次输入密码:
端点url。输入您的帐户名(例如https://historical.gnip.com:443/accounts/<;account name>;/):shendrickson
已完成文件创建。/.gnip
请确保运行:
chmod og-w.gnip

$chmod og-w.gnip

如果使用示例json作业描述,请确保更改"serviceusern"amefield"
对于您自己,即对于twitter,使用您的twitter句柄。

通过编辑提供的示例json文件("bieber_job1.json")创建作业描述。


FromDate和ToDate的格式为yyyymmddhhmm:

{
"数据格式":"活动流"
"FromDate":"201201201010000"
"发布者":"Twitter"
"规则":
[
{
"标记":"最佳规则"
"值":"bieber"
}
],
"serviceusername":"把你的twitter句柄放在这里",
"streamtype":"track",
"title":"bieber job1",
"todate":"201201010001"
}


创建作业,

$./创建作业py-f./bieber job1.json-t"社交数据表型-bieber"

响应是服务器返回的json记录。它将描述作业(包括作业ID和作业URL,或任何错误消息。

-前一个url使用前一个作业url(仅从此配置
文件。)。
-v,--详细输出。
-f文件名,--filename=filename
file定义作业(json)
-t标题,--title=title
t项目标题,此标题取代文件中的标题。




列出作业、获取作业报价并获取作业状态:
===========
$./列出作业。py-h
用法:list_jobs.py[选项]

选项:
-h,-帮助显示此帮助消息并退出
-u url,--url=url作业url。
-l,--prev url使用以前的作业url(仅来自此配置
文件。)。
-v,--verbose详细输出。
-d sincedatestring,--since date=sincedatestring
er date, (default
2012-01-01T00:00:00)

For example, I have three completed jobs, a Gnip job, a Bieber job and a SXSW
job for which data is avaiable.

$ ./list_jobs.py
#########################
TITLE: GNIP2012
STATUS: finished
进度:100.0%
100.0%
工作网址:https://historical.gnip.com:443/acaccounts/shendricckson/publi发布者/twitter/historal/track/jobs/eeh2vte64.json_______
标题:贾斯汀·比ber 2009
STATUS: finished
PROGRESS: 100.0 %
JOB URL: https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/j5epx4e5c3.json
#########################
TITLE: SXSW2010-2012
STATUS: finished
PROGRESS: 100.0 %
JOB URL: https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json



若要查看详细信息或下载数据文件列表,
使用-u或add-v标志指定URL(data_files.txt仅包含列表中最后一个作业的URL)


下载包含数据的文件的URL
==ile locations for the data files this job created on S3, pass
the job URL with the -u flag (or if you used -u for this job previously, just use -l--see help),

$ ./list_jobs.py -u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json
#########################
TITLE: SXSW2010-2012
状态:完成
进度:100.0%
作业URL:https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d.json

结果:
作业完成时间……。2012-09-01 04:35:23
活动次数…….-1
文件数量…………-1
文件大小(MB)……-1
数据URL…………….https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historical/track/jobs/sbxff05b8d/results.json
数据集:
网址数量…………131211
文件大小(字节)……2151308466
文件(URL)………https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815_sbxff05b8d/2010/01/01/00/00_activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=hdsc0a%2brqeg%2bknasawpzsuom1f0%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815椆sbxf05b8d/2010/01/01/00/10椆activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&signature=dozlxkumbyv5ukgmw4qrcopmevw%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/20撸activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=x4sftxm2x9y7qwgkcwg6fhh7w%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/30撸activities.json.gz?awsaccesskeyid=akiaj7o2s22dn2ndn7uq&expires=1349066046&;signature=wvubkurx%2bazyezlx9unbamscrhg%3d
https://archive.replay.historicals.review.s3.amazonaws.com/historicals/twitter/track/activity-streams/shendrickson/2012/08/28/20100101-20120815撸sbxff05b8d/2010/01/01/00/40撸activities.json.gz?awsasaccesskeyid=akaj7o2s22dn2ndn7uq&;expires=1349066046&;signature=og9yygklxxxnxjllaw3h5yyw%3d



将文件写入data-cufile.txt…
















<下载数据
=====












>至使用实用程序

$./获取数据文件.bash



这将启动多达8个到s3的同时curl连接,将文件下载到本地。/数据/年/月/日/小时…目录树(有关详细信息,请参阅name_mangle.py)。


作业在被接受之前不会启动。

$./接受作业-u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historicals/track/jobs/c9pe0day6h.json



$./reject_job-u https://historical.gnip.com:443/accounts/shendrickson/publishers/twitter/historicals/track/jobs/c9pe0day6h.json


=
ott hendrickson是根据creative commons attribution sharelike 3.0 unported license授权的。此作品是在Creative Commons Attribution Sharelike 3.0 Unported许可下授权的。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by sa/3.0/。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java对多个for循环使用一个整数有什么好处?   要求的Java枚举错误返回类型   使用AOP的Java Spring MVC CSRF令牌   PHP ZF2中的java 安卓登录按钮和远程web登录   java将双精度转换为整数转换为字符串,并在TxtField CodeNameOne中输出   java代码不断向后向数组中输入值   如何使用Java获取git信息?   当使用DateUtils类的parseDateStructive()方法时,java异常无法解析日期   java执行示例Flink kafka consummer   java触发REST调用时无法解释某些汉字   java错误:不兼容的类型:<null>如果使用安卓 room(!\u cursor.isNull(null))则无法转换为int   java Spring引导构建正常,但Heroku部署失败   我无法使用ORMLite库在java(安卓)中执行“WITH RECURSIVE”子句   java JavaFX图像加载错误