2024-09-30 18:14:56 发布
网友
我有一个非常非结构化的HTML文档,最好的清理方法(文本和链接-在附加的img上选择)是regex。那么,是否有可能在Selenium中将这个正则表达式应用于Xpath
pattern = re.compile(r'(?i).*(zobacz|czytaj|przeczytaj).+<a.+a>\B')
有效的方法是:
//text()[contains(., 'Zobacz także')]/../a
但我不确定这是否是最佳解决方案,需要很多条件
XPATH有一个名为matches的方法,但这仅在XPath2.0中可用
https://www.w3.org/TR/xpath-functions-31/#func-matches
但到目前为止,包括chrome在内的大多数浏览器都只支持XPath1.0,并计划一起废除XPATH
https://github.com/whatwg/dom/issues/903
因此只能使用xpath 1.0标准,如“contains”,而不能使用regex
https://www.w3.org/TR/1999/REC-xpath-19991116/
XPATH有一个名为matches的方法,但这仅在XPath2.0中可用
https://www.w3.org/TR/xpath-functions-31/#func-matches
但到目前为止,包括chrome在内的大多数浏览器都只支持XPath1.0,并计划一起废除XPATH
https://github.com/whatwg/dom/issues/903
因此只能使用xpath 1.0标准,如“contains”,而不能使用regex
https://www.w3.org/TR/1999/REC-xpath-19991116/
相关问题 更多 >
编程相关推荐