用python从html文件中提取zipcode

2条回答

网友

1楼 · 编辑于 2024-06-18 13:45:21

[感谢您的帮助，我必须从文件夹中的文件数中提取zip和城市信息，我的代码如下，但会根据您的正则表达式进行更改。下一步是提取城市信息并将其保存到csv文件1

网友

2楼 · 编辑于 2024-06-18 13:45:21

试试这个。首先，使用BeautifulSoup获取html。在html中查找所有td标记。然后，使用regex提取zipcode。你知道吗

from bs4 import BeautifulSoup
import requests, re

url = "https://www.sec.gov/Archives/edgar/data/20/000095012310024631/c97665e10vk.htm"

page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")

for s in soup.find_all("td", attrs={"align":"center"}):
    zipcode = re.findall("(\d{5}-\d{4})",str(s)) # you can also use your regex if you want
    if zipcode != []:
        print (zipcode)

输出：

['08071-0888']

编程相关推荐

java从远程安卓应用程序打开/关闭嵌套
java在每个请求上获取memcache变量导致问题
如何在java中使用itext获取pdf文件的标题
java如何使用firebase令牌发送通知？
java不能在spring数据聚合中包含嵌套字段
用于调度作业的java Cron表达式
java当我使用TabActivity 安卓时，TabActivity类型已被弃用
加密Java Bouncy Castle加密使用AES加密
awt Java，将GUI与ActionListener类分离
如何在Java中创建一个根据输入返回枚举的方法？

相关问题更多 >

编程相关推荐

热门问题

热门文章

用python从html文件中提取zipcode

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >