回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我有一系列的单词,摘自对一家酒店的评论。
例如</p>
<pre><code>array(['advantage', 'advice', 'anniversary', 'arrived', 'aveda', 'bangs',
'bath', 'bed', 'check', 'clean', 'closing', 'comfortable', 'deal',
'did', 'disappointed', 'distance', 'doors', 'easy', 'evening',
'existent', 'expensive', 'experience', 'goldfish', 'good', 'got',
'great', 'hallway', 'having', 'hear', 'heard', 'high', 'hotel',
'just', 'late', 'like', 'little', 'location', 'longer', 'loud',
'maybe', 'morning', 'music', 'neck', 'neighbors', 'nice', 'night',
'noisy', 'non', 'not', 'opening', 'overall', 'parking', 'pay',
'people', 'pillows', 'previous', 'products', 'quick', 'reviews',
'room', 'shopping', 'size', 'soundproof', 'stay', 'staying',
'stiff', 'taken', 'talking', 'took', 'touch', 'valet', 'view',
'walking', 'woke'], dtype='<U12')
</code></pre>
<p>然后我得到了该酒店在本次审查中的评级<br/>
e、 g在这种情况下,酒店获得了4颗星</p>
<p>我在大约2万篇评论中也有同样的评论</p>
<p>我想看看这些词和评论之间的关系</p>
<p>例如,有人可能会认为,与“脏”、“不喜欢”、“小”、“令人失望”的评论相比,带有“干净”、“很棒”、“喜欢”、“推荐”等词的评论会获得更高的星级</p>
<p>我试图用pandas<code>corr</code>和<code>corrwith</code>函数来处理这个问题,并使用NumPy来计算相关性,但我无法让它工作并产生良好的结果</p>