java有可以在Hadoop上运行的多语言时态表达式标记器吗?
我需要从大量文本中提取日期。语言越多越好;至少英语、西班牙语和葡萄牙语。有这样的工具吗?在Java和Mavenized中?以下是我的发现:
- http://code.google.com/p/heideltime/多种语言和令人印象深刻的在线演示,但需要一些奇怪的外部依赖,我怀疑这会使集群部署变得困难/不可能
- http://nlp.stanford.edu/software/sutime.shtml有很好的记录,但只有英文。训练容易吗李>
- http://natty.joestelmach.com/仅限英语
- https://github.com/samtingleff/jchronic仅限英语
- http://code.google.com/p/nltk/source/browse/trunk/nltk_contrib/nltk_contrib/timex.py仅限英语
我还应该去哪里看
共 (0) 个答案