BeautifulSoup后写入csv文件

for trTag in trTags: tdTags = trTag.find("td", class_="result-value") tdTags_string = tdTags.get_text(strip=True) saveFile = open("some.csv", "a") saveFile.write(str(tdTags_string) + ",") saveFile.close() saveFile = open("some.csv", "a") saveFile.write("\n") saveFile.close()

import urllib2 import re import csv from bs4 import BeautifulSoup SomeSiteURL = "https://SomeSite.org/xyz" OpenSomeSiteURL = urllib2.urlopen(SomeSiteURL) Soup_SomeSite = BeautifulSoup(OpenSomeSiteURL, "lxml") OpenSomeSiteURL.close() # finding name NameParentTag = Soup_SomeSite.find("tr", class_="result-item highlight-person") Name = NameParentTag.find("td", class_="result-value-bold").get_text(strip=True) saveFile = open("SomeSite.csv", "a") saveFile.write(str(Name) + ",") saveFile.close() # finding other info # <tbody> -> many <tr> -> in each <tr>, extract second <td> tbodyTags = Soup_SomeSite.find("tbody") trTags = tbodyTags.find_all("tr", class_="result-item ") for trTag in trTags: tdTags = trTag.find("td", class_="result-value") tdTags_string = tdTags.get_text(strip=True) with open("SomeSite.csv", "a") as f: writeFile = csv.writer(f) writeFile.writerow([tdTags_string])

placeHolder = [] for trTag in trTags: tdTags = trTag.find("td", class_="result-value") tdTags_string = tdTags.get_text(strip=True) placeHolder.append(tdTags_string) with open("SomeSite.csv", "a") as f: writeFile = csv.writer(f) writeFile.writerow(placeHolder)

import urllib2 import re import csv from bs4 import BeautifulSoup SomeSiteURL = "https://SomeSite.org/xyz" OpenSomeSiteURL = urllib2.urlopen(SomeSiteURL) Soup_SomeSite = BeautifulSoup(OpenSomeSiteURL, "lxml") OpenSomeSiteURL.close() # finding name NameParentTag = Soup_SomeSite.find("tr", class_="result-item highlight-person") Name = NameParentTag.find("td", class_="result-value-bold").get_text(strip=True) saveFile = open("SomeSite.csv", "a") saveFile.write(str(Name) + ",") saveFile.close() # finding other info # <tbody> -> many <tr> -> in each <tr>, extract second <td> tbodyTags = Soup_SomeSite.find("tbody") trTags = tbodyTags.find_all("tr", class_="result-item ") placeHolder = [] for trTag in trTags: tdTags = trTag.find("td", class_="result-value") tdTags_string = tdTags.get_text(strip=True) #print repr(tdTags_string) placeHolder.append(tdTags_string.rstrip('\n')) with open("SomeSite.csv", "a") as f: writeFile = csv.writer(f) writeFile.writerow(placeHolder)

2条回答

网友

1楼 · 编辑于 2024-05-19 17:03:50

对于最近的跳线问题，我找到了答案。而不是

with open("SomeSite.csv", "a") as f:
    writeFile = csv.writer(f)
    writeFile.writerow(placeHolder)

使用这个：

^{pr2}$

来源：https://docs.python.org/3/library/functions.html#open。“a”模式是附加模式，其中as“ab”是一种附加模式，同时以二进制文件的形式打开文件，解决了跳过一行的问题。在

网友

2楼 · 编辑于 2024-05-19 17:03:50

with open("some.csv", "a") as f:
        writeFile = csv.writer(f)
        writeFile.writerow([tdTags_string]) # put in a list

writeFile.writerow将迭代传递给您的内容，因此字符串"foo"将成为f,o,o三个独立的值，将其包装在list中可以防止这种情况，因为writer将迭代列表而不是字符串

您应该打开一次文件，而不是每次都通过循环打开：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章