twitter股市机器学习包

twistml的Python项目详细描述


扭转ml

twistml是一个使处理原始twitter数据更容易的包 对于机器学习任务,比如预测库存的变化 市场。

twistml实现了一个包含twitter过滤的管道 数据、预处理、特征提取 表现(文字袋,情感袋,doc2vec),回归/ 使用sklearn包中的算法进行分类,以及 模型选择/评估。

api文档可在TwistML’s PyPI page找到。更注重使用 文档很快就来了,在那之前你可以得到完整的包 从bitbucket(也链接到pypi页面)查看 一些使用示例的“实验”文件夹。

twistml是作为我硕士论文的一部分开发的,我希望 以后再改进。

安装

您可以使用pip安装twistml,如下所示:

$ pip install twistml

请确保安装了numpy、scipy和gensim 好。我已选择不将它们添加到所需的安装中,因为 在我自己的windows机器上的测试中引起了问题。(对于纽比 问题被描述为here)因此这些包将 不是由PIP自动安装的。

已知问题和计划改进

  • 实现一个DateRange类并替换FromDate的所有匹配项, 日期,日期格式。
  • 实现完全不带日期范围的find_files()。应该是 可以简单地处理目录中的所有文件(也可以 递归地)
  • twistml目前假设原始twitter数据作为一个 每天json文件。确保Internet存档的文件方案是 也支持
  • 添加对小时时间分辨率的支持,而不是只支持每天。
  • 评估子包只能处理二进制分类。 可能探索添加多类。
  • 当前设置日志的方式很奇怪,应该重新编写。
  • gensim的labeled森特已被弃用,请改用taggeddocument

更改

版本0.9

  • 已将状态更改为beta版
  • 添加了通过sphinx和numpydoc生成的api文档
  • Doc2VecTransformer现在支持迭代训练 (见:http://rare-technologies.com/doc2vec-tutorial/
  • 回归评估现在可以将预测视为二元的 分类和评估AUC和F1
  • 更改了一些命令行脚本以获得更直观的用法
  • 各种小修补程序

版本0.2.4

^ {STR 1 }注意:其中一些可能会破坏现有代码!

  • 将combine_tweets.py重命名为combine.py
  • 增加了对功能堆叠的支持
  • 分类目标现在是0/1而不是-1/1
  • 添加到yData模块->;创建一些用于测试的toyData
  • 将F1分数添加到分类评估中
  • 添加了其他窗口函数:window_stack和window_element_avg

版本0.2.3

  • 改进的长描述生成
  • 已修复更改。rst

版本0.2.2

  • 基于textblob情感添加情感功能

版本0.2.1

  • 为复杂类别子集添加功能 tml生成功能
  • 还改进了tml生成特性的文档(在命令行 以及docstring)
  • 提高了测试覆盖率

版本0.2.0

  • 将开发状态更改为alpha
  • 删除了Sentence2vec,因为该功能包含在当前 gensim版本的doc2vec类
  • 添加了更改日志

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javascript如何从Java中的seleniun访问Chrome上的PDF查看器DOM?   如何打印字符串中的大写字母数   java使用htmlUnit处理动态html表单   java等待事件分派线程创建的GUI   java如何在屏幕上移动/动画单个子类对象而不移动其他子类?   java拟合是从PRNG到最大-最小范围的结果   java如何隐藏所有其他片段   java OpenGL ES纹理图谱失真   java排队/退队或报价/投票   java step/stp文件在另外两个点之间的距离   java如何设置水平仪栏的动画?   在Flex和Java中压缩和解压缩XML   java如何使用AutoIt安装JRE   java我想删除NavigationView布局上的一个栏   java Android Studio按钮小部件OnClick。找不到函数   java ImageView隐藏和显示   java类型的方法和构造函数未定义   swing Java UDP数据包未从客户端程序到达服务器程序   java如何在我自己的服务器上配置推送通知?