我阅读了很多关于不同NLP分类任务的文章,我看到大多数文章在预处理部分指定使用替换令牌:
e.g. We removed and replaced the URLs, emojis and punctuation with replacement tokens: <URL>, <EMOJI>, <PUNCT>
.
我是这个领域的新手,我想知道是否有一些特殊的方法来处理这种令牌/标记?是否有必要使用< >
或者这仅仅是一种表示这种替换的方式,并帮助分类器找到模式
任何帮助都将不胜感激
Tags:
根据我所做的,在预处理部分,人们用数字替换所有标记(字符、语素、单词)。这些代币也不过是数字,
<URL>
只是向人类展示它的一种方式相关问题 更多 >
编程相关推荐