Twitter数据收集库

ptdc的Python项目详细描述


[Author]PyPi[Python 3.7]license

python twitter数据收集器构建于 Tweepy允许用户 在流媒体过程中动态地从twitter收集帐户和状态, 从收集的数据中自动生成数据集,您可以 CSV公司。

这个库提供了一个框架,您可以使用它来构建自己的 数据采集器,指定必须 从twitter帐户/状态中提取。

创建你的twitter数据集:1.实例化AccountCollector 和/或StatusCollector类,根据您要收集的内容, 帐户、状态或两者。在这一步你可以重新定义你自己的 必须从twitter数据中提取的特性,必须通过 以下形式的类似dict的参数:<;feature_name,function>; 函数必须应用于用户或状态对象的位置。 请参考 documentation 有关twitter对象2的更多详细信息。实例化 OnlineStreamer将收集器作为参数3传递。开始流式处理 关于一些话题4。将创建的数据集保存在指定位置

注意:不必同时使用收集器和拖缆,但您可以 也可以单独使用收集器,例如,如果已经有用户 和/或要收集的状态,您不需要流式处理任何内容。

新功能:*按名称脱机收集,允许用户创建 按名称查询并收集一些名称相似的用户提取特征 在收集器构造函数中定义

安装

这个包在pypi上提供 here

$ pip install ptdc

示例用法

导入模块

from ptdc import authenticate, AccountCollector, OnlineStreamer, StatusCollector

定义令牌

用你的代币替换下面的代币,见twitter开发者 authentication 有关如何获取它们的详细信息。

consumer_key = "xxxxxxxxxxx"
consumer_key_secret = "xxxxxxxxxxxxx"
access_token = "xxxxxxxxxxxxxxxxxxxxxx"
access_token_secret = "xxxxxxxxxxxxxxxxxx"

创建tweepy

的默认tweepy api对象
api = authenticate(consumer_key=consumer_key, consumer_key_secret=consumer_key_secret, access_token=access_token, access_token_secret=access_token_secret)

创建自己的收集数据的收集器

创建自己的statuscollector对象

s_collector = StatusCollector(api=api)

创建自己的accountcollector对象,它也将收集 状态

collector = AccountCollector(api=api, statuses_collector=s_collector)

创建拖缆

创建将收集数据的在线拖缆(在这种情况下将收集 只有5个帐户)

streamer = OnlineStreamer(api=api, collector=collector, data_limit=5, n_statuses=400)

开始流媒体

你可以用Tweepy定义的所有方式开始流媒体,请参阅其文档 更多详细信息

streamer.stream(track=['famous', 'web', 'vip', 'holiday', 'pic', 'photo'], is_async=False)

保存数据集/s

流结束后(根据定义的限制),保存 生成csv文件的数据帧。您只需要访问 collector对象并调用提供路径的save_dataset方法。

streamer.collector.save_dataset(path="../data/accounts.csv")

问题和贡献

可以在问题跟踪器上发布问题和问题。拉动 欢迎提出要求!

您可以随意更改或添加新的功能和特性 图书馆

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java,我如何在方法中放置一个开关盒?   Java将数组添加到数组特殊模式   java的类常量和文件导入   如何在java中使用正则表达式更改匹配子字符串的前缀和后缀   Java Hashmap实现中的字符串哈希问题   java如何计算数组中的连续数字组   处理异常后如何在java中重新启动thrift服务器?   java嵌套列表迭代器。程序不会终止   如何在maven目标目录下的JAR文件中运行java类?   mysql Java JPA/Hibernate级联删除   java使用ApachePDFBox在PDF中查找javascript代码   java将hsqlDB集成到netbeans 7 IDE中   java如何删除word梯形图中的最后一个“>”   java如何存储由Minimax扩展的节点数