有了一些文字,我想把它恰当地标记在单词上。文本中可能出现:
你有什么建议来解决这个问题? 它可以用regex(例如pythonre)解决吗? 我要用撇号的单词不要分开,引号要从单词标记中分开
枯燥无味的文本戒指.txt例如有点棘手:
输入:几乎没有任何“政府”。 输出:[“had”、“harly”、“any”、“'”、“government”、“'”](识别为引号)
一个更大的机构,根据需要变化,被用来“突破界限” 是一个引语,但是由于结尾s'
“这不自然,会有麻烦的!”引号内的撇号
“精灵和龙”我对他说。又是一句名言。
我的建议是试着把你的案子分解。如果您想按单词分割(意思是单词的两端都有空格),可能一个简单的
split
就可以完成它的工作。在如果更复杂的话,regex似乎是个更好的主意。您可以使用
(a|b)
,意思是匹配a或b。我的建议是多做些实验,最好的实验地点在这里:regex101.com。为了让事情更清楚,在左面板中选择“Python”!在相关问题 更多 >
编程相关推荐