如何为Python BeautifulSoup NLTK分析连接多个列表

from bs4 import BeautifulSoup import urllib.request import re import nltk from nltk import FreqDist from nltk.tokenize import sent_tokenize, word_tokenize from nltk.corpus import stopwords resp = urllib.request.urlopen ("https://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html") soup = BeautifulSoup(resp,"lxml", from_encoding=resp.info().get_param('charset')) for link in soup.find_all('a', href=re.compile('last'))[1:2]: lastlist = 'https://www.tdcj.state.tx.us/death_row/'+link['href'] resp2 = urllib.request.urlopen(lastlist) soup2 = BeautifulSoup(resp2,"lxml", from_encoding=resp2.info().get_param('charset')) body = soup2.body for paragraph in body.find_all('p')[4:5]: name = paragraph.text print(name) for paragraph in body.find_all('p')[6:]: tokens = word_tokenize(paragraph.text) addWords = ['I',',','Yes','.','\'m','n\'t','?',':', 'None','To','would','y\'all',')','Last','\'s'] stopWords = set(stopwords.words('english')+addWords) wordsFiltered = [] for w in tokens: if w not in stopWords: wordsFiltered.append(w) fdist1 = FreqDist(wordsFiltered) common = fdist1.most_common(1) print(common)

1条回答

网友

1楼 · 发布于 2024-09-28 23:23:49

from bs4 import BeautifulSoup
import urllib.request
import re
import nltk
from nltk import FreqDist
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

resp = urllib.request.urlopen("https://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html")
soup = BeautifulSoup(resp,"lxml", from_encoding=resp.info().get_param('charset'))
wordsFiltered = []
for link in soup.find_all('a', href=re.compile('last'))[1:2]:
    lastlist = 'https://www.tdcj.state.tx.us/death_row/'+link['href']
    resp2 = urllib.request.urlopen(lastlist)
    soup2 = BeautifulSoup(resp2,"lxml", from_encoding=resp2.info().get_param('charset'))    
    body = soup2.body

    for paragraph in body.find_all('p')[4:5]:
        name = paragraph.text
        print(name)


    for paragraph in body.find_all('p')[6:]:
        tokens = word_tokenize(paragraph.text)
        addWords = ['I',',','Yes','.','\'m','n\'t','?',':','None','To','would','y\'all',')','Last','\'s']
        stopWords = set(stopwords.words('english')+addWords)


        for w in tokens:
            if w not in stopWords:
                wordsFiltered.append(w)

fdist1 = FreqDist(wordsFiltered)
common = fdist1.most_common(1)
print(common)

我已经编辑了您的代码，以获取每个语句中最常用的单词。如果你不明白什么，可以随意评论。另外，请记住，如果在每次迭代中都向循环中追加列表，则不要在循环中声明列表。在

相关问题更多 >

编程相关推荐

热门问题

热门文章