在python中读取文本文件时删除重复的字符行?

2024-09-30 01:22:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在读一个从CSV文件复制的文本文件。当我阅读python中的文件时,我得到大量不必要的重复行,如下所示。我怎样才能去掉这三行不需要的行,包括每个文本开头和结尾的\cf0和\cell\row?在

还是应该直接从csv文件本身读取文本?文本只在CSV文件的一列中。在

\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil 

\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640

\pard\intbl\itap1\pardeftab720

\cf0 i have been using your product and it has been helping me a lot to solve business problem,\cell \row



\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil 

\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640

\pard\intbl\itap1\pardeftab720

\cf0 I am very happy with your products. Very easy to use.\cell \row



\itap1\trowd \taflags1 \trgaph108\trleft-108 \trbrdrl\brdrnil \trbrdrr\brdrnil 

\clvertalc \clshdrawnil \clbrdrt\brdrs\brdrw20\brdrcf2 \clbrdrl\brdrs\brdrw20\brdrcf2 \clbrdrb\brdrs\brdrw20\brdrcf2 \clbrdrr\brdrs\brdrw20\brdrcf2 \clpadl100 \clpadr100 \gaph\cellx8640

\pard\intbl\itap1\pardeftab720

\cf0 Many improvements with income tracker, and other time saving elements.  Newer look, easier navigation.  I believe there definitely is a time savings from past versions.\cell \row

以下是csv文件的片段:

^{pr2}$

我只复制了Review_Description列中的文本,并将它们全部粘贴到一个文本文件中。在

下面是我用来读取文件的python代码:

text_file=open("my_text.txt", "r")
lines=text_file.readlines()
print lines

Tags: 文件文本cellrowtrowdtrlefttrgaph108brdrs
1条回答
网友
1楼 · 发布于 2024-09-30 01:22:47

这里的真正问题似乎是将CSV粘贴到RTF文件中,而不是文本文件中。在Windows上粘贴到Wordpad或在Mac上粘贴TextEdit(尤其是当你从Excel或Numbers中复制的时候)并且不明确地告诉它“另存为纯文本”或“转换为纯文本”就可以自动地“帮助”你了。在

虽然可以尝试解析RTF来恢复原始文本,但如果可能,只使用原始文本要好得多。在Python中用Pandas或stdlib的^{}模块解析CSV文件非常容易。在

例如,文件似乎使用制表符作为分隔符,而不使用其他非默认功能。如果是:

import csv
with open('my_csv.csv', 'rb') as f:
    reader = csv.DictReader(f, delimiter='\t')
    reviews = [row['Review_Description'] for row in reader]

现在你有了所有评论的列表,你可以用它们做任何你想做的事情。如果你只想打印出来,那就更简单了:

^{pr2}$

相关问题 更多 >

    热门问题