这是一个亚马逊评论的大文本数据文件,我需要使用PySpark在RDD中进行清理和总结。数据如下所示:
[''\u label\u 2 Great CD:我的伟大。。。当我在…'的时候
'\uu label\uu 1 Abcd:它。。。。。。你知道吗
# loading to train and test RDDs
train = sc.textFile("/FileStore/tables/train_ft-bfd00.txt", 2)
test = sc.textFile("/FileStore/tables/test_ft-41af5.txt", 2)
# https://www.kaggle.com/abantikabasak/ml-assignment-4
def amazon_data(listt):
Lst=[]
for line in listt:
#print(line)
#print(type(line))
line=str(line)
txtline=line.split('__label__')[1] #Choose the Right hand side of __label__
#print("Textline"+str(txtline))
txtline=re.sub('[!?:;,.|''""]','',txtline) #Substitute these characters with ''
#print("Textline"+str(txtline))
temp=txtline.split(' ') #Split at spaces
#print("Temp"+str(temp))
sentiment="good" if(temp[0]=="2") else "bad"
sentence=temp[1:len(temp)]
#print("Sentence:\n"+str(sentence))
sentence[len(sentence)-1]=sentence[len(sentence)-1][0:len(sentence[len(sentence)-1])-3]
#print("Sentence:\n"+str(sentence))
sentence=' '.join(sentence)
#print("Sentence:\n"+str(sentence))
Lst.append([sentiment,sentence])
DFrame=pd.DataFrame(Lst,columns=("Sentiment_class_label","Review_Text"))
DFrame.to_csv("Sentiment.csv")
#DFrame.toPandas().to_csv("Sentiment.csv")
#DFrame.write.csv('mycsv.csv')
df.map(lambda x: amazon_data(x))
import pandas as pd
InputFile="Sentiment.csv"
DFrame=pd.read_csv(InputFile,index_col=0)
print(DFrame.head(10))
我不得不把亚马逊的数据(df)改为测向图因为RDD没有迭代。所以现在, 出[101]:Python[88]在RDD在Python鳞:55你知道吗
但是在def amazon\u data():工作之后,我无法打印数据帧。 FileNotFoundError:文件b'情绪.csv'不存在
目前没有回答
相关问题 更多 >
编程相关推荐