在使用regex标记时区分引号和撇号

2024-10-17 10:28:25 发布

您现在位置:Python中文网/ 问答频道 /正文

有了一些文字,我想把它恰当地标记在单词上。文本中可能出现:

  • 中间带撇号的单词(不能,我来,会计账簿)
  • 最后加上撇号的词(雇主协会,我花了一天的大部分时间来重温这段断掉的部分)
  • 引号,直接放在单词后面或单词之间,比如:word'word
  • 文本按句子分割,但引号内可以有多个句子,还有,带撇号的单词也可以留在引号内
  • 不同的曲子符号,比如“开”和“闭”,或者一个是“另一个是”或者“或者”,等等。。。在

你有什么建议来解决这个问题? 它可以用regex(例如pythonre)解决吗? 我要用撇号的单词不要分开,引号要从单词标记中分开

枯燥无味的文本戒指.txt例如有点棘手:

  • 输入:几乎没有任何“政府”。 输出:[“had”、“harly”、“any”、“'”、“government”、“'”](识别为引号)

  • 一个更大的机构,根据需要变化,被用来“突破界限” 是一个引语,但是由于结尾s'

  • “这不自然,会有麻烦的!”引号内的撇号

  • “精灵和龙”我对他说。又是一句名言。


Tags: 标记文本时间符号单词建议引号regex
1条回答
网友
1楼 · 发布于 2024-10-17 10:28:25

我的建议是试着把你的案子分解。如果您想按单词分割(意思是单词的两端都有空格),可能一个简单的split就可以完成它的工作。在

>>> my_str = "words like that'"
>>> my_str.split(' ')
['words', 'like', "that'"]
>>>

如果更复杂的话,regex似乎是个更好的主意。您可以使用(a|b),意思是匹配a或b。我的建议是多做些实验,最好的实验地点在这里:regex101.com。为了让事情更清楚,在左面板中选择“Python”!在

相关问题 更多 >