目的:在句子层面上对tweet中所流露出的情绪进行分类,这意味着我不想在一个句子中寻找积极或消极的词,而是要在一个整体的语境中确定对tweet的看法。这个练习的动机是基于这个research paper
到目前为止我做了什么?通过下面的代码,我可以清理tweets并将它们写入一个文件。在
我现在想做什么?如何使用python中的nlp包将其应用于清理后的tweets文件,并在句子级别提取tweet的情感。作为python的新手,我参加这个活动是为了提高我对编程语言的理解。在
下面是原始tweet的示例
pohpoh001,#changepenang #1MDB: Logik penangkapan Justo yang gagal difahami
pro-Tun M: Kenyataan bekas Menteri Penerangan... http://t.co/aFRdliKMLw �
LimCaiHin,#changepenang #1MDB: Logik penangkapan Justo yang gagal difahami
pro-Tun M: Kenyataan bekas Menteri Penerangan... http://t.co/4kjdCZN33A �
FarahinKafli,Sedangkan adik aku 10 tahun pun tahu pasal 1MDB. Malulah pokjib oi.
GlDulford,"Jika sokong Najib, isytihar juga sokong 1MDB - Tun �"
NA,"Better follow debat ""apa disebalik 1mdb"""
注意:这些推文是用马来语(马来语)写的。我知道我把它和英文版的阿芬词典作比较,我的结果是不正确的。但这不是问题,因为这是我现在的学习练习。在
当我执行以下代码时
^{pr2}$输出如下:
pohpoh001 changepenang 1mdb logik penangkapan justo yang gagal difahami pro tun m kenyataan bekas menteri penerangan
limcaihin changepenang 1mdb logik penangkapan justo yang gagal difahami pro tun m kenyataan bekas menteri penerangan
farahinkafli sedangkan adik aku 10 tahun pun tahu pasal 1mdb malulah pokjib oi
gldulford jika sokong najib isytihar juga sokong 1mdb tun na better follow debat apa disebalik 1mdb
问题1:如何将NLTK包应用到输出文件中,以便从句子层次上导出情感,或者您是否建议使用其他NLP包?在
问题2:注意输出文件每个句子中的第一个单词是用户名,比如(pohpoh001,limcaihin,farahinkafli,gldulford)。如何以编程方式在用户名后添加逗号,以便将输出文件写入username,tweet?在
目前没有回答
相关问题 更多 >
编程相关推荐