如何计算停顿预测中的短语

2024-10-03 21:27:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个任务,计算两个文本中相同的短语,以计算暂停预测系统的准确性

例如:
-源句:我/1在/1去/1学校之前/1吃早餐。
-停顿预测系统中的句子:我/我吃/我吃早餐/我去/我去/我学校

我必须得到的输出:
-相关短语:3
-相关\u未\u选取\u短语:2
-不相关:4

关于如何获取输出编号的说明:
-对于相关短语:检查并计算两个句子之间的相同短语(I,before,school=3)
-对于相关的未选取的短语:检查并统计原句中两个句子之间的不同短语(have breakfast,going to=2)
-对于不相关的:检查并统计来自停顿预测系统的句子中两个句子之间的不同短语(have,breakfast,going,to=4)

我们如何用python编写代码来计算短语以获得输出?我试过了,但找不到确切的计算方法


Tags: to代码文本系统have学校编号句子
1条回答
网友
1楼 · 发布于 2024-10-03 21:27:53

到目前为止,您是否尝试过这种方法:

from multiset import Multiset

original = 'I/1 have breakfast/1 before/1 going to/1 school.'
prediction = 'I/1 have/1 breakfast/1 before/1 going/1 to/1 school.'

original_counts = Multiset(original.split('/1'))
prediction_counts = Multiset(prediction.split('/1'))

print('relevant_picked_up_phrase: ', (original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', (original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', (prediction_counts - original_counts))
print('relevant_picked_up_phrase: ', len(original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', len(original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', len(prediction_counts - original_counts))

您可能需要用$ pip install multiset安装multiset

相关问题 更多 >