如何计算emai将产生的预计收入

2024-10-02 00:34:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我现在正在放暑假,想通过在家里试验python来主动一点。我正试图写一个程序,计算估计收入,将产生的电子邮件。到目前为止,我所做的是反复清理每封电子邮件中的文本,并显示一个表格,其中显示了每封电子邮件中每个单词的字数,以及该电子邮件产生的收入

excel_file = 
pd.read_excel(r'\\sbirstafil001\users\CFarrugia\email_clicks_udc1.xlsm', 
sheet_name=0) # can also index sheet by name or fetch all sheets
mylist2 = excel_file['html'].tolist()

corpus2=list()


for j in mylist2:     
    url = mylist2[mylist2.index(j)]  
    url_txt= urllib.request.urlopen(url)
    text_to_analyse=url_txt.read()
    replaces5= text_cleaning(text_to_analyse)#text_cleaning is a function 
 #I wrote
    corpus2.append(replaces5)        


analyzer = CountVectorizer().build_analyzer()
vectorizer = CountVectorizer(analyzer=stemmed_words)


result = vectorizer.fit_transform(corpus2).todense()
cols = vectorizer.get_feature_names()


res_df6 = pd.DataFrame(result, columns = cols)

我想要的是一个程序,在这个程序中,用户输入一封电子邮件,然后程序清理文本,计算其CountVectorizer,并通过比较字数和其他电子邮件的收入来估计这封电子邮件将产生的收入(例如,如果一封电子邮件中多次出现“python”一词,而用户输入的电子邮件中也包含了后者的一些情况,那么在计算估计收入时就会考虑到这一点)。我想要的只是一个从哪里开始的想法,或者如何做到这一点


Tags: text文本程序urlread电子邮件excelanalyzer

热门问题