我想把这个网站分成三个部分,第一个是ipaddress,port和protoco,我用python中的HTMLParser来解决,但是下面的代码在一个标签中没有属性和值
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>proxy-list</title>
</head>
<body>
<table>
<tr>
<td>192.168.1.10</td>
<td>HTTP1</td>
<td>Vietnam</td>
<td>8080</td>
<td>a</td>
<td>%d1</td>
</tr>
<tr>
<td>10.25.100.10</td>
<td>HTTPS2</td>
<td>Campuchia</td>
<td>3214</td>
<td>b</td>
<td>%d2</td>
</tr>
<tr>
<td>203.25.10.110</td>
<td>HTTP3</td>
<td>ThaiLan</td>
<td>123</td>
<td>c</td>
<td>%d3</td>
</tr>
<tr>
<td>220.155.10.13</td>
<td>HTTP4</td>
<td>Itali</td>
<td >1000</td>
<td>d</td>
<td>%d4</td>
</tr>
<tr>
<td>220.155.10.113</td>
<td>HTTP5</td>
<td>Itali</td>
<td >505</td>
<td>d</td>
<td>%d4</td>
</tr>
<tr>
<td>220.155.10.115</td>
<td>HTTPS6</td>
<td>Itali</td>
<td >321</td>
<td>d</td>
<td>%d4</td>
</tr>
</table>
</body>
</html>
那么我如何得到所有的3个组件,IP地址和端口,protoco。在
你必须自己添加标签。我同意Andres的观点,
lxml
更适合于此,但是使用HTMLParser
可以创建一个TableParser
类,该类输出一个嵌套数组,该数组包含每个表行的字典。在尝试使用
lxml
:输出:
^{2}$相关问题 更多 >
编程相关推荐