非结构化文本到结构化数据

2024-05-18 22:26:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在寻找参考资料(教程,书籍,学术文献)有关结构化非结构化文本的方式类似于谷歌日历快速添加按钮。

我知道这可能属于NLP类别,但我只对“Levi jeans size 32 A0b293”这类产品的开发过程感兴趣

收件人:品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293

我认为这将是词汇分析和机器学习技术的结合。

我是语言不可知者,但如果被推,则喜欢Python、Matlab或C++参考文献

谢谢


Tags: 文本sizenlp方式教程类别按钮文献
3条回答

你需要提供更多关于文本来源的信息(网络?用户输入?),域名(只是衣服吗?),潜在的格式和词汇。。。

假设最坏的情况下,你需要开始学习NLP。一本很好的免费书是NLTK的文档:http://www.nltk.org/book。这也是对Python的一个很好的介绍,SW是免费的(用于各种用途)。警告:NLP很难。它并不总是有效的。有时候不好玩。最先进的技术离你想象的不远。

假设一个更好的场景(你的文本是半结构化的)一个好的免费工具是pyparsing。有一本书,大量的例子和产生的代码是非常有吸引力的。

我希望这能有帮助。。。

可能看看托比·塞加拉的《集体智慧》。我似乎记得在一章中谈到了这一点。

经过一番研究,我发现这个问题通常被称为信息抽取问题,我收集了一些论文并把它们存放在门德雷的收藏中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

泰维斯还指出,NLTK for python是一个很好的起点,本书的this一章专门关注信息提取

相关问题 更多 >

    热门问题