Python/使用Pandas从文本文件读取和分组数据

Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına. Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim. Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir. Sentence:5 Polarity:P hoş ve sevimli bir film. Sentence:6 Polarity:O eşcinsellere pek sempati duymamakla beraber bu filmde sanki onları sevimli göstermeye çalışmışlar gibi geldi. Sentence:7 Polarity:O itici bir film değildi sonuçta. Sentence:8 Polarity:N seyrederken bu kadar sinirlendiğim film hatırlamıyorum. Sentence:9 Polarity:O J.Aniston ın hiç mi umut yok diye sorduğu sahnede kıracaktım televizyonu! Sentence:10 Polarity:O kimse yazmamış ben yazıyım:) Sentence:11 Polarity:P güzel bi pazar günü şirin bi film izlemek isteyenler için çok güzel.

Sentence_No - Sentence_Polarity - Sentence_txt 1 - N - 5puan verdim o da anistonun güzel yüzünün hatırına. 2 - N - son derece sıkıcı bir filim olduğunu söyleyebilirim. 3 - N - ..saçma bir konuyu nasılda filim yapmışlar maşallah 4 - P - bence hoş vakit geçirmek için seyredilebilir.

2条回答

网友

1楼 · 编辑于 2024-10-01 00:30:48

我把它作为一个测试字符串：

test = """Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına.
Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim.
Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah
Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir."""

使用Python的re模块，您可以使用re.sub替换所需的内容：

new_string = re.sub(r"Sentence:(\d+) Polarity:(\w)", r"\1 - \2 -", test)

提供所需的格式。\1或\2分别是与组(\d+)匹配的数字或与(\w)匹配的字母。你知道吗

现在可以使用新字符串了。你知道吗

网友

2楼 · 编辑于 2024-10-01 00:30:48

使用DataFrame的replace方法和regex，并在使用header=None读取文件时使用read_csv，默认情况下，数据集的第一行将被视为标头，您将无法获取第一行。因此，请使用fillna("0")，因为您的数字序列不一致，并且具有空或Nan：

df = pd.read_csv("SU-Movie-Reviews-Sentences.txt", header=None).fillna("0")

print(df)
                                                   0
0   Sentence:1 Polarity:N 5puan verdim o da anisto...
1   Sentence:2 Polarity:N son derece sıkıcı bir fi...
2   Sentence:3 Polarity:N ..saçma bir konuyu nasıl...
3   Sentence:4 Polarity:P bence hoş vakit geçirmek...
4      Sentence:5 Polarity:P hoş ve sevimli bir film.
5   Sentence:6 Polarity:O eşcinsellere pek sempati...
6   Sentence:7 Polarity:O itici bir film değildi s...
7   Sentence:8 Polarity:N seyrederken bu kadar sin...
8   Sentence:9 Polarity:O  J.Aniston ın hiç mi umu...
9   Sentence:10 Polarity:O kimse yazmamış ben yazı...
10  Sentence:11 Polarity:P  güzel bi pazar günü şi...

下面是如何使用replace：

>>> df.replace('Sentence:|Polarity:', '',regex=True)
                                                    0
0   1 N 5puan verdim o da anistonun güzel yüzünün ...
1   2 N son derece sıkıcı bir filim olduğunu söyle...
2   3 N ..saçma bir konuyu nasılda filim yapmışlar...
3   4 P bence hoş vakit geçirmek için seyredilebilir.
4                        5 P hoş ve sevimli bir film.
5   6 O eşcinsellere pek sempati duymamakla berabe...
6                 7 O itici bir film değildi sonuçta.
7   8 N seyrederken bu kadar sinirlendiğim film ha...
8   9 O  J.Aniston ın hiç mi umut yok diye sorduğu...
9                   10 O kimse yazmamış ben yazıyım:)
10  11 P  güzel bi pazar günü şirin bi film izleme...

相关问题更多 >

编程相关推荐

热门问题

热门文章