一组搜索模式,用于查询基于事件和社区检测到的tweet的语料库,但可以对其进行修改以查询大多数社交网络(socialnetwork,nodedge)数据。
askcomm的Python项目详细描述
askcomm:python3模块-基于事件、社区检测到的twitter数据的搜索模式
作者:克里斯·林德格伦chris.a.lindgren@gmail.com
根据BSD 3条款许可证分发。看到了吗许可证.txt或http://opensource.org/licenses/BSD-3-Clause获取详细信息。在
概述
一组搜索模式,用于查询基于事件和社区检测到的tweet的语料库,但可以对其进行修改以查询大多数社交网络(node-edge)数据。查询对于在检测到的社区子图数据中生成的内容非常有用。在
它假设您有:
- 把你的语料库作为熊猫数据帧导入
- 包括元数据信息,如日期列表和重新组织语料库的组列表,以及
- 将文档作为社区检测到的跨周期事件的数据进行预处理。在
功能
query_controller
:接受语料库和集线器用户数据,并在一系列时间段和社区中搜索与检测到的模块社区密切相关的tweet。它使用find_mentions
函数在一个时段的数据范围内进行交叉引用搜索,有两个选项:“仅提及”或“用户”和“用户”mentions_only
'搜索包含每条tweet的提及列表的列user_and_mentions
将一条tweet的作者与提到的列表交叉引用。它返回在这段时间内找到的最高结果tweet的Dict。在
query_controller(hubs=df_hubs,#community-detected datahub_col_period='period',#column name for periodshub_col_module='info_module',# column name for community namehub_col_users='name',#column name for period_range=[1,10],#range of desired periodsmodule_range=[1,10],#range of desired communities/modulescorpus=c_htg,#content corpusperiod_dates=period_dates,#List of lists with dates to col_dates='dates'#column name for dates)
convert_to_df
:将查询控制器的Dict输出转换为每个用户的最高结果的数据帧。如果找不到tweet,则附加为None。在
find_ht
:使用hashtag group list查询单独提及或编写的tweet的子集。它以数据帧的形式返回另一个子集。在
find_links
:使用搜索字符串查询tweet中的链接。它以数据帧的形式返回子集。在
其他函数包括:find_mentions
和print_subset
。在
它只在python3.x上运行,不向后兼容。在
Warning:askcomm几乎不执行任何自定义错误处理,因此请确保输入的格式正确。如果您有任何问题,请通过电子邮件通知我。在
系统要求
- 熊猫
安装
- 将此回购协议下载到您的计算机上。在
- 将文件夹存储在有意义的位置。在
- 打开终端。在
- 在终端中,导航到文件夹的根目录。在
- 在终端中,运行
pip install .
已知问题或限制
- 如果您发现任何问题,请与我联系。在
示例笔记本
- 马上就来。在
分发更新终端命令
^{pr2}$- 项目
标签: