使用Python从网站提取表数据

###### import httplib2 import re def urlvoid(urlInput): h2 = httplib2.Http(".cache") resp, content2 = h2.request(("https://www.urlvoid.com/scan/" + urlInput), "GET") content2String = (str(content2)) rpderr = re.compile('\<div\sclass\=\"error\"\>', re.IGNORECASE) rpdFinderr = re.findall(rpderr,content2String) if "error" in str(rpdFinderr): ipvoidErr = True else: ipvoidErr = False if ipvoidErr == False: rpd2 = re.compile('(?<=Server Location</span></td><td>)[a-zA-Z0-9.]+(?=</td></tr>)') rpdFind2 = re.findall(rpd2,content2String) rpdSorted2=sorted(rpdFind2) return rpdSorted2 urlvoid("google.com") ######

1条回答

网友

1楼 · 发布于 2024-09-29 00:19:13

我不建议您使用regex来获取数据，因为它可以通过bs4来完成，并且如果您构建一个regex来完成，则需要较长的时间和复杂的条件。在

import requests
from bs4 import BeautifulSoup,NavigableString
import re

def urlvoid(urlInput):
    url = "https://www.urlvoid.com/scan/" + urlInput
    res = requests.get(url)
    text = res.text
    soup = BeautifulSoup(text,"lxml").find("table",class_="table table-custom table-striped")
    all_tr = soup.find_all("tr")
    value = { tr.find_all("td")[0].text : 
                tr.find_all("td")[1].text.replace("\xa0","")
                for tr in all_tr}
    print(value)

urlvoid("google.com")

相关问题更多 >

编程相关推荐

热门问题

热门文章