如何使用Python从html表中web抓取数据并将其存储在csv文件中。我能提取一些部分，但不能提取其他部分

import requests from bs4 import BeautifulSoup import re import csv for x in xrange(44,47): EXAMNO ='15te12'+str(x) print EXAMNO data = {"txtregno": EXAMNO, "cmbdegree": r"BTHEE~\BTHEE\result.mdb", # use raw strings "cmbexamno": "B", "dpath": r"\BTHEE\result.mdb", "dname": "BTHEE", "txtexamno": "B"} results_page = requests.post("http://result.pondiuni.edu.in/ResultDisp.asp", data=data).content soup = BeautifulSoup(results_page, 'html.parser').prettify() regpa= "" patterngpa =re.compile(regpa) gpa=re.findall(patterngpa,soup) print gpa rename="(.+?)" patternname=re.compile(rename) name=re.findall(patternname,soup) print (name)

1条回答

网友
1楼 · 发布于 2024-10-02 06:29:58

花了很多时间才找到暴力解决方案。在
import requests from bs4 import BeautifulSoup import re import csv for x in xrange(44,47): EXAMNO ='15te12'+str(x) data = {"txtregno": EXAMNO, "cmbdegree": r"BTHEE~\BTHEE\result.mdb", # use raw strings "cmbexamno": "B", "dpath": r"\BTHEE\result.mdb", "dname": "BTHEE", "txtexamno": "B"} results_page = requests.post("http://result.pondiuni.edu.in/ResultDisp.asp", data=data).content soup = BeautifulSoup(results_page, 'html.parser').prettify() string=str(BeautifulSoup(results_page, 'html.parser')) regpa= "<! Percentage / S.G.P.A : (.+?)     >" print (re.search(regpa,string,re.M|re.I )).group(1) regname="Name of the student : (.*)" print (re.search(regname,string,re.M|re.I )).group(1) regsub="66%\">(.*)</td>" matches=(re.findall(regsub,string,re.M|re.I )) for i in xrange(len(matches)): regsubm=">"+matches[i]+"</td>\n<td align=\"center\" bgcolor=\"white\" width=\"2%\">..</td>\n<td align=\"center\" bgcolor=\"white\" width=\"7%\">[\xc2]?[\xa0]?[\xc2]?[\xa0]?-</td>\n<td align=\"center\" bgcolor=\"white\" width=\"1%\">-</td>\n<td align=\"center\" bgcolor=\"white\" width=\"5%\">-</td>\n<td align=\"center\" bgcolor=\"white\" width=\"5%\">(.*)" matchesm=re.findall(regsubm,string,re.M) print matches[i],' ->',matchesm[0]

相关问题更多 >

编程相关推荐

热门问题

热门文章