数据框过滤掉非英语文本的行

from langdetect import detect import pandas as pd def filter_nonenglish(df): new_df = None # Do some magical operations here to create the filtered df return new_df df = pd.read_csv('somecsv.csv') df_new = filter_nonenglish(df) print('New df is: ', df_new)

1条回答

网友

1楼 · 发布于 2024-10-01 02:23:38

您可以在df上执行以下操作，并在input_text列中获取所有包含英文文本的行：

df_new = df[df.input_text.apply(detect).eq('en')]

因此，基本上只需将langdetect.detect函数应用于input_text列中的值，并获取所有那些文本被检测为“en”的行

编程相关推荐

java在LWJGL窗口中使用Slick2D呈现文本？
java Spring和hibernate集成无法打开JPA
java不提供引擎密钥。createKey（种类，id）是否总是返回相同的结果？
如果字符串包含语句，则为Java或运算符
在Windows 2008 R2德语区域设置中，unicode附加的java代码无法在输出中正确打印德语字符
java Maven依赖项排除未按预期工作
用Java实现类的接口
在Emacs中进行Java开发的最佳方法是什么？
为什么我的Java Simple Elasticsearch停留在doSample方法上？
来自持久性的javajar文件。在eclipse中找不到xml

相关问题更多 >

编程相关推荐

热门问题

热门文章

数据框过滤掉非英语文本的行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >