面向自然语言处理的机器学习定制翻译

2024-09-26 04:53:14 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有以下非常简化的训练和测试观察结果。在

培训

input: her favourite dog was a huskey and her favourite cat was a leopard
output: dog=huskey, cat=leopard

input: her favourite dog was a beagle and her favourite cat was a lion
output: dog=beagle, cat=lion

input: her favourite dog was a poodle and her favourite cat was a burmese
output: dog=poodle, cat=burmese

测试

^{pr2}$
  • 在python中,什么是最好的机器学习方法使我能够将测试输入转换成所需的输出?在
  • 从获取这些原始数据到做出这种预测需要哪些步骤?在

从该领域的一些研究来看,现有的机器学习软件包似乎都是围绕着分类、回归和聚类(例如http://scikit-learn.org/stable/),而我所要做的是一种翻译形式。在

我还研究了一些NLP包,其功能更多地涉及到关键字识别、词类型识别和情感分析(例如http://www.nltk.org/)。也有一些翻译包可供使用,但这些是针对已有语言的(http://pythonhosted.org/goslate/

我认识到,对于这种特殊情况,机器学习是完全没有必要的,然而在实践中,将有更复杂、不同和大量的输入来翻译。在


Tags: andorg机器httpinputoutputcatdog
1条回答
网友
1楼 · 发布于 2024-09-26 04:53:14

(1)我将重新表述您试图解决的问题:在句子S中给出一些具体的动物A,找出C类中最好的动物。所以给出第1句:

her favourite dog was a huskey and her favourite cat was a leopard

给目标动物A=“huskey”,你会得到C=“dog”作为类;类似地,当A=“豹子”时,你会得到C=“cat”。在

(2)从你问问题的方式来看,我假设你不想使用外部词典或其他数据(在那里找到C类与其相关的动物物种的搭配并训练一个有监督的分类器相对来说是微不足道的)。所以我假设你只限于你提到的数据类型。我还将假设C类在每个句子中都明确提到。在

(3)考虑到数据约束,您可能需要在特征中使用语法信息。在英语中,句法主要是通过语序来传达的,所以我将着重讨论这些。塔格可能是你演讲中有用的一部分。在

(4)对于句子S中的每个可能的目标A,您将创建一行数据。因此,句子#1有两个目标A={husky,leopard},因此在您的训练数据中将有两行映射到相应的类dog和cat。在

行已发送。目标F1,F2。。。FN类

11哈士奇。。。狗

21豹子。。。猫

(5)包括目标的位置作为特征。。。在您提供的示例数据中可能没有用处,但对于更复杂的目标,例如A=“the big white husky”应该将完整的名词短语映射到C=“dog”。在给定的数据上找到最接近的解。在

她最喜欢的狗是哈士奇,而她最喜欢的猫是豹子

所以你可以有一个特性F_LftClosestNoun,F_RtClosestNoun,F_ClosestNoun。然后在训练数据上训练分类器,然后在看不见的数据上测试它。如果你提供一个更真实的样本,也许我们可以确定其他有用的功能。在

相关问题 更多 >