PySpark亚马逊评论情绪分析RDD问题

2024-09-28 01:32:40 发布

您现在位置:Python中文网/ 问答频道 /正文

这是一个亚马逊评论的大文本数据文件,我需要使用PySpark在RDD中进行清理和总结。数据如下所示:

[''\u label\u 2 Great CD:我的伟大。。。当我在…'的时候

'\uu label\uu 1 Abcd:它。。。。。。你知道吗

# loading to train and test RDDs
train = sc.textFile("/FileStore/tables/train_ft-bfd00.txt", 2) 
test = sc.textFile("/FileStore/tables/test_ft-41af5.txt", 2)

# https://www.kaggle.com/abantikabasak/ml-assignment-4

def amazon_data(listt):
    Lst=[]

    for line in listt:
        #print(line)
        #print(type(line))

        line=str(line)
        txtline=line.split('__label__')[1] #Choose the Right hand side of __label__
        #print("Textline"+str(txtline))
        txtline=re.sub('[!?:;,.|''""]','',txtline) #Substitute these characters with ''
        #print("Textline"+str(txtline))
        temp=txtline.split(' ') #Split at spaces
        #print("Temp"+str(temp))
        sentiment="good" if(temp[0]=="2") else "bad"
        sentence=temp[1:len(temp)]
        #print("Sentence:\n"+str(sentence))
        sentence[len(sentence)-1]=sentence[len(sentence)-1][0:len(sentence[len(sentence)-1])-3]
        #print("Sentence:\n"+str(sentence))
        sentence=' '.join(sentence)
        #print("Sentence:\n"+str(sentence))
        Lst.append([sentiment,sentence])

    DFrame=pd.DataFrame(Lst,columns=("Sentiment_class_label","Review_Text"))
    DFrame.to_csv("Sentiment.csv")
    #DFrame.toPandas().to_csv("Sentiment.csv")
    #DFrame.write.csv('mycsv.csv')

df.map(lambda x: amazon_data(x))

import pandas as pd
InputFile="Sentiment.csv"
DFrame=pd.read_csv(InputFile,index_col=0)
print(DFrame.head(10))

我不得不把亚马逊的数据(df)改为测向图因为RDD没有迭代。所以现在, 出[101]:Python[88]在RDD在Python鳞:55你知道吗

但是在def amazon\u data():工作之后,我无法打印数据帧。 FileNotFoundError:文件b'情绪.csv'不存在


Tags: csvto数据lenlinetraintemplabel

热门问题