我有一个文本文件如下:
Sentence:1 Polarity:N 5puan verdim o da anistonun güzel yüzünün hatırına.
Sentence:2 Polarity:N son derece sıkıcı bir filim olduğunu söyleyebilirim.
Sentence:3 Polarity:N ..saçma bir konuyu nasılda filim yapmışlar maşallah
Sentence:4 Polarity:P bence hoş vakit geçirmek için seyredilebilir.
Sentence:5 Polarity:P hoş ve sevimli bir film.
Sentence:6 Polarity:O eşcinsellere pek sempati duymamakla beraber bu filmde sanki onları sevimli göstermeye çalışmışlar gibi geldi.
Sentence:7 Polarity:O itici bir film değildi sonuçta.
Sentence:8 Polarity:N seyrederken bu kadar sinirlendiğim film hatırlamıyorum.
Sentence:9 Polarity:O J.Aniston ın hiç mi umut yok diye sorduğu sahnede kıracaktım televizyonu!
Sentence:10 Polarity:O kimse yazmamış ben yazıyım:)
Sentence:11 Polarity:P güzel bi pazar günü şirin bi film izlemek isteyenler için çok güzel.
我想把这些数据分成这样一个表:
Sentence_No - Sentence_Polarity - Sentence_txt
1 - N - 5puan verdim o da anistonun güzel yüzünün hatırına.
2 - N - son derece sıkıcı bir filim olduğunu söyleyebilirim.
3 - N - ..saçma bir konuyu nasılda filim yapmışlar maşallah
4 - P - bence hoş vakit geçirmek için seyredilebilir.
所以我想我需要从“句子:”,“极性”和最后一个txt部分后面的部分。我希望这样我可以对数据进行分类。你知道吗
我写了下面的代码,但不是为了这个目的:
df = pd.read_csv('SU-Movie-Reviews-Sentences.txt', lineterminator='\n', names=['Sentence_No', 'Sentence_Polarity' , 'Sentence_txt'])
我把它作为一个测试字符串:
使用Python的
re
模块,您可以使用re.sub
替换所需的内容:提供所需的格式。
\1
或\2
分别是与组(\d+)
匹配的数字或与(\w)
匹配的字母。你知道吗现在可以使用新字符串了。你知道吗
使用DataFrame的
replace
方法和regex
,并在使用header=None
读取文件时使用read_csv
,默认情况下,数据集的第一行将被视为标头,您将无法获取第一行。因此,请使用fillna("0")
,因为您的数字序列不一致,并且具有空或Nan:df = pd.read_csv("SU-Movie-Reviews-Sentences.txt", header=None).fillna("0")
下面是如何使用
replace
:相关问题 更多 >
编程相关推荐