Python中文
首页
教程
问答
标签
搜索
登录
注册
RegEx标记器:将文本拆分为单词、数字、标点和空格(不要删除任何内容)
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我几乎在<a href="https://stackoverflow.com/questions/5214177/regex-tokenizer-to-split-a-text-into-words-digits-and-punctuation-marks">this thread</a>(samplebias的答案)中找到了这个问题的答案;但是我需要将一个短语分成单词、数字、标点符号和空格/制表符。我还需要这个来保持这些事情发生的顺序(线程中的代码已经这样做了)。在</p> <p>所以,我发现的是这样的:</p> <pre><code> from nltk.tokenize import * txt = "Today it's 07.May 2011. Or 2.999." regexp_tokenize(txt, pattern=r'\w+([.,]\w+)*|\S+') ['Today', 'it', "'s", '07.May', '2011', '.', 'Or', '2.999', '.'] </code></pre> <p>但这是我需要给出的清单:</p> ^{pr2}$ <p>正则表达式一直是我的一个弱点,所以经过几个小时的研究,我仍然被难住了。谢谢您!!在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在正则表达式<code>\w+([.,]\w+)*|\S+</code>,<code>\w+([.,]\w+)*</code>捕获单词,<code>\S+</code>捕获其他非空白。在</p> <p>为了捕获空格和制表符,请尝试以下操作:<code>\w+([.,]\w+)*|\S+|[ \t]</code>。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
9 回答
如何添加表示整数的擦边字符串?
9 回答
如何添加要在Bokeh中使用的新font.ttf文件?
8 回答
如何添加要显示的矩阵XY轴编号和XY轴
9 回答
如何添加计数?
6 回答
如何添加计数器函数?
5 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
9 回答
如何添加计数器来跟踪while循环中的月份和年份?
10 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
6 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
1 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
6 回答
如何添加评论拉梅尔亚姆
9 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
5 回答
如何添加谷歌地点自动完成到Flask?
3 回答
如何添加超时、python discord bot
5 回答
如何添加超过1dp的检查
2 回答
如何添加距离方法
8 回答
如何添加跟随游戏的敌人精灵
1 回答
如何添加路径以便python可以找到程序?
1 回答
如何添加身份验证/安全性以使用happybase访问HBase?
5 回答