Python post请求USPTO站点抓取

import requests from bs4 import BeautifulSoup def scrape_employees(): URL = 'http://portal.uspto.gov/EmployeeSearch/searchEm.do;jsessionid=98BC24BA630AA0AEB87F8109E2F95638.prod_portaljboss4_jvm1?action=displayResultPageByOrgShortNm&currentPage=1' response = requests.post(URL) site_data = response.content soup = BeautifulSoup(site_data, "html.parser") print(soup.prettify()) if __name__ == '__main__': scrape_employees()

1条回答

网友

1楼 · 发布于 2024-06-03 12:38:17

您需要的所有数据都在form标记中：

action是发布到服务器时的url。在

input是需要发送到服务器的数据。{name:value}

import requests, bs4, urllib.parse,re

def make_soup(url):
    r = requests.get(url)
    soup = bs4.BeautifulSoup(r.text, 'lxml')
    return soup

def get_form(soup):
    form = soup.find(name='form', action=re.compile(r'OrgShortNm'))
    return form

def get_action(form, base_url):
    action = form['action']
    # action is reletive url, convert it to absolute url
    abs_action = urllib.parse.urljoin(base_url, action)
    return abs_action

def get_form_data(form, org_code):
    data = {}
    for inp in form('input'):
        # if the value is None, we put the org_code to this field
        data[inp['name']] = inp['value'] or org_code

    return data

if __name__ == '__main__':
    url = 'http://portal.uspto.gov/EmployeeSearch/'
    soup = make_soup(url)
    form = get_form(soup)
    action = get_action(form, url)
    data = get_form_data(form, '1634')

    # make request to the action using data

    r = requests.post(action, data=data)

相关问题更多 >

编程相关推荐

热门问题

热门文章