Regex组合'or'和'lookback'

2024-06-28 19:24:15 发布

您现在位置:Python中文网/ 问答频道 /正文

抱歉,标题太混乱了。我试图找出一个简单的正则表达式问题,但无法找出解决方案。你知道吗

我有一个更大的HTML文档的HTML片段。你知道吗

  • <td class="grade">100.0</td>

  • <td class="teacher">Mathias, Jordan</td>

另一个正则表达式将两者分开,给它们起那些类名。我用一个正的look-ahead来检查.,(句点或逗号),并分别给他们分配年级或老师的班级。你知道吗


当我想检查这些标记之间的代码是否为空时,问题会在后面出现。你知道吗

  • i、 例如:<td class="grade"></td>

我想用正面的观察来检查这个班级是年级还是老师(grade|teacher)。另外,我想检查一下><(空标记的连接)之间是否真的没有任何东西。你知道吗

到目前为止,这就是我所拥有的:(?<=.*(teacher|grade)*.+>?)[^.](?=</td>)

注意:这是用Python编写的


Tags: 文档标记标题html老师解决方案classtd
1条回答
网友
1楼 · 发布于 2024-06-28 19:24:15

不要对HTML进行预处理,请信任BeautifulSoup并使用正则表达式搜索:

soup.find_all('td', text=re.compile(','))

在包含逗号的标记中查找具有直接文本的所有<td>元素。你知道吗

相关问题 更多 >