web文本文档中的字数结果为0

2024-09-29 19:20:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试了Rasha Ashraf“用python刮EDGAR”一文中的python代码。 他使用了urllib2,我想这在python 3中是无效的。 因此,我将其更改为urllib

我可以带下面的Edgar网页。但是,无论我如何尝试修复代码,字数计数的结果都是0。请帮我解决这个问题。仅供参考,我手动检查URL页面,以便“地址”、“类型”和“交易”分别出现5次、9次和49次。尽管如此,我错误的python结果显示这三个单词的结果为0

下面是我修改过的Rasha Ashraf的python代码(只有urllib部分和web URL)。 原始URL包含大量文本内容。所以我把它变成了一个更简单的网页

import time
import csv
import sys

CIK = '0001018724'
Year= '2013'
string_match1= 'edgar/data/1018724/000112760220028651/0001127602-20-028651.txt'
url3= 'http://www.sec.gov/Archives/'+string_match1

import urllib.request
 
response3= urllib.request.urlopen(url3)
#output = response3.read()
#print(output)
words=  ['ADDRESS','TYPE', 'transaction']
count= {}
for elem in words:
    count[elem]= 0
    
for line in response3:
    elements= line.split()
    for word in words:
       count[word]= count[word] + elements.count(word)

print (CIK)
print (Year)
print (url3)
print (count)

=>;到目前为止我的代码的结果

0001018724

2013

http://www.sec.gov/Archives/edgar/data/1018724/000112760220028651/0001127602-20-028651.txt

{'ADDRESS': 0, 'TYPE': 0, 'transaction': 0}

Tags: 代码inimporturl网页forcounturllib
1条回答
网友
1楼 · 发布于 2024-09-29 19:20:58

要获得3个字符串(不是单词!)在文件中出现的正确次数,请尝试以下操作:

import requests
url = "http://www.sec.gov/Archives/edgar/data/1018724/000112760220028651/0001127602-20-028651.txt"
req = requests.get(url)

words = ['address','type','transaction']
filing = req.text
for word in words:
    print(word,': ',filing.lower().count(word))

输出:

address :  5
type :  9
transaction :  49

相关问题 更多 >

    热门问题