我正在解析一个HTML,我得到一个数组字符串,我正试图清理它,并在以后放入pdf。在这个层次上,我想把以@X
开头的所有单词移到行的末尾,这样我就可以在末尾对齐所有的@X
。你知道吗
Hello World @Xabs
Hello World @Xz
Hello World @Xss
Hello World @Xssa
Hello World @Xqq
Hello World @Xsasas
我想要什么作为输出:
Hello World @Xabs
Hello World @Xz
Hello World @Xss
Hello World @Xssa
Hello World @Xqq
Hello World @Xsaxs
有什么想法吗?你知道吗
到目前为止我所拥有的:
# encoding=utf8
import sys
reload(sys)
#import from lxml import html
from bs4 import BeautifulSoup as soup
import re import codecs
sys.setdefaultencoding('utf8')
# Access to the local URL(Html file) f=codecs.open("C:\...\file.html", 'r')
page = f.read()
f.close()
#html
parsing page_soup = soup(page,"html.parser")
tree = html.fromstring(page) # extract the important arrays of string
a_s= page_soup.find_all("td", {"class" :"row_cell"})
for a in a_s:
result = a.text.replace("@X","")
print(final_result)
字符串中没有特定的线宽概念。如果要对齐文本,请以恒定宽度打印第一部分
与@blue\u note的答案非常相似,但使整个解决方案更加自动化:
相关问题 更多 >
编程相关推荐