基于python中NLTK的tweets语句级情感分析

2024-10-03 13:21:47 发布

您现在位置:Python中文网/ 问答频道 /正文

目的:在句子层面上对tweet中所流露出的情绪进行分类,这意味着我不想在一个句子中寻找积极或消极的词,而是要在一个整体的语境中确定对tweet的看法。这个练习的动机是基于这个research paper

到目前为止我做了什么?通过下面的代码,我可以清理tweets并将它们写入一个文件。在

我现在想做什么?如何使用python中的nlp包将其应用于清理后的tweets文件,并在句子级别提取tweet的情感。作为python的新手,我参加这个活动是为了提高我对编程语言的理解。在

下面是原始tweet的示例

pohpoh001,#changepenang #1MDB: Logik penangkapan Justo yang gagal difahami      

pro-Tun M: Kenyataan bekas Menteri Penerangan... http://t.co/aFRdliKMLw �
LimCaiHin,#changepenang #1MDB: Logik penangkapan Justo yang gagal difahami  

pro-Tun M: Kenyataan bekas Menteri Penerangan... http://t.co/4kjdCZN33A �
FarahinKafli,Sedangkan adik aku 10 tahun pun tahu pasal 1MDB. Malulah pokjib oi.
GlDulford,"Jika sokong Najib, isytihar juga sokong 1MDB - Tun �"
NA,"Better follow debat ""apa disebalik 1mdb"""

注意:这些推文是用马来语(马来语)写的。我知道我把它和英文版的阿芬词典作比较,我的结果是不正确的。但这不是问题,因为这是我现在的学习练习。在

当我执行以下代码时

^{pr2}$

输出如下:

pohpoh001  changepenang  1mdb  logik penangkapan justo yang gagal difahami pro tun m  kenyataan bekas menteri penerangan          
limcaihin  changepenang  1mdb  logik penangkapan justo yang gagal difahami pro tun m  kenyataan bekas menteri penerangan          
farahinkafli sedangkan adik aku 10 tahun pun tahu pasal 1mdb  malulah pokjib oi  
gldulford  jika sokong najib  isytihar juga sokong 1mdb   tun na  better follow debat   apa disebalik 1mdb

问题1:如何将NLTK包应用到输出文件中,以便从句子层次上导出情感,或者您是否建议使用其他NLP包?在

问题2:注意输出文件每个句子中的第一个单词是用户名,比如(pohpoh001,limcaihin,farahinkafli,gldulford)。如何以编程方式在用户名后添加逗号,以便将输出文件写入username,tweet?在


Tags: 文件代码pro句子tweetyangtunsokong