如何像在tidytext中一样标记文本?

2024-05-19 07:40:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在Python中重现tidytextexploding标记化

> tibble(text = c('hasta la vista baby',
+                 'I am the terminator'),
+        value = c(1,2)) %>% 
+   unnest_tokens(input = 'text',output = 'word', token = 'words')
# A tibble: 8 x 2
  value word      
  <dbl> <chr>     
1     1 hasta     
2     1 la        
3     1 vista     
4     1 baby      
5     2 i         
6     2 am        
7     2 the       
8     2 terminator

在{}中也可以这样做吗?我在这里关注的是执行速度

import pandas as pd

pd.DataFrame({'text': ['hasta la vista baby', 'I am the terminator'],
              'value': [1,2]})
Out[3]: 
                  text  value
0  hasta la vista baby      1
1  I am the terminator      2

谢谢


Tags: thetext标记valueamlawordbaby

热门问题