从网页中提取部分文本

2024-09-29 19:31:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试生成一个获取文件.do用于特定类型报告的字符串-“技术”报告。问题是,报告“type”被标记在字符串的末尾,因此代码应该读取字符串,如果报告标记签出,则应该返回并提取字符串获取文件.do(行动)。你知道吗

以下是源网页的示例(WWW.SEDAR.COM))有很多不需要的东西,但下面是我确实想要的。因此,如果我们阅读下面代码中的“技术报告”,我想提取操作信息(这样我就可以用它来下载文档)。问题是许多页面链接是不相关的。你知道吗

FORM name=“form1512323126173”action=“/>获取文件.dolang=EN&;docClass=24&;issuerNo=00021020&;issuerType=03&;projectNo=02627564&;d cId=4117642“method=”post“target=”AcceptTermsOfUse“P HREF=”javascript:提交文件(文件格式1512323126173,'AcceptTermsOf use');“title=”&;docClass=24&;issuerNo=00021020&;issuerType=03&;projectNo=026 7564&;docId=4117642“onmouseover=”窗口状态='&;docClass=24&;issuerNo=000 1020&;issuerType=03&;projectNo=02627564&;docId=4117642';返回true;“onmouseout=”窗口状态='';return true;“>;技术报告(NI 43101)

下面是一个我不感兴趣的例子(在同一页上):

FORM name=“form1512323126172”操作=“/获取文件.dolang=EN&;docClass=24&;issuerNo=00021020&;issuerType=03&;projectNo=02627564&;d cId=4117645“method=”post“target=”AcceptTermsOfUse“PA HREF=”javascript:提交文件(文件格式1512323126172,'AcceptTermsOfU e');“title=”&;docClass=24&;issuerNo=00021020&;issuerType=03&;projectNo=02627 64&docId=4117645“onmouseover=”窗口状态='&;docClass=24&;issuerNo=00021020&;issuerType=03&;projectNo=02627564&;docId=4117645';返回true;“onmouseout=”窗口状态='';return true;''合格人员同意书(NI 43-101)

因此,综上所述,我希望看到以下结果:

动作=“/获取文件.dolang=EN&;docClass=24&;issuerNo=00021020&;issuerType=03&;p项目号=02627564&;d cId=4117642


Tags: 文件字符串true状态报告技术enamp

热门问题