beautifulsoup to csv：将文本段落放入一个lin中

import csv import requests from bs4 import BeautifulSoup def main(): r = requests.get("https://www.econometricsociety.org/publications/econometrica/2017/03/01/search-yield") soup = BeautifulSoup(r.text,"html.parser") with open('Temp.csv', 'w', encoding='utf8', newline='') as f: writer = csv.writer(f,delimiter=",") abstract=soup.find("article").text writer.writerow([abstract]) if __name__ == '__main__': main()

import csv import requests from bs4 import BeautifulSoup def main(): r = requests.get("https://www.econometricsociety.org/publications/econometrica/2017/03/01/search-yield") soup = BeautifulSoup(r.text,"html.parser") with open('Temp.csv', 'w', encoding='utf8', newline='') as f: writer = csv.writer(f,delimiter=",") abstract=soup.find("article").get_text(separator=" ", strip=True) writer.writerow([abstract]) if __name__ == '__main__': main()

3条回答

网友

1楼 · 编辑于 2024-07-01 06:17:11

r = requests.get("https://www.econometricsociety.org/publications/econometrica/2017/03/01/search-yield")
soup = BeautifulSoup(r.text,'lxml') # I prefer using xml parser
find_article = soup.find('article')
# Next line how to find The title in this case: Econometrica: Mar 2017, Volume 85, Issue 2
find_title = find_article.h3
# find search yeild 
find_yeild = find_article.h1
#first_paragraph example : DOI: 10.3982/ECTA14057       p. 351-378
find_1para =  find_article.p
#second p example : David Martinez‐Miera, Rafael Repullo  
find_2para = find_article.p.find_next_sibling("p")
#find the large text area using e.g. 'We present a model of the relationship bet...'
find_largetxt = find_article.p.find_next_sibling("p").nextSibling

我使用了各种方法来访问你想要的文本区域，仅仅是为了教育目的（你可以使用.text来获得没有标签的文本，或者你可以使用Zroq的方法）。但是，您可以通过以下方式将其中的每一个写入到文件中，例如

^{pr2}$

网友

2楼 · 编辑于 2024-07-01 06:17:11

将abstract = ...行改为：

abstract = soup.find("article").get_text(separator=" ", strip=True)

它将使用separator参数分隔每一行（在本例中，它将用一个空格分隔字符串）。在

网友

3楼 · 编辑于 2024-07-01 06:17:11

最终对我有用的解决方案非常简单：

abstract=soup.find("article").text.replace("\t", "").replace("\r", "").replace("\n", "")

这样可以消除所有的断线。在

相关问题更多 >

编程相关推荐

热门问题

热门文章