Python中的干净文本数据

def standardize_text(df, text_field): df[text_field] = df[text_field].str.lower() df[text_field] = df[text_field].str.replace(r'(', '') df[text_field] = df[text_field].str.replace(r')', '') df[text_field] = df[text_field].str.replace(r',', '') df[text_field] = df[text_field].str.replace(r'_', '') df[text_field] = df[text_field].str.replace(r"'", "") df[text_field] = df[text_field].str.replace(r"^[a-z]+\[0-9]+$", "") df[text_field] = df[text_field].str.replace(r"^[0-9]{1,2,3,4,5}$", "") return df

2条回答

网友

1楼 · 编辑于 2024-10-01 13:27:20

使用名为“textcleaner”的库。请参见repository和link。这个article可能对你有帮助。在

!pip install textcleaner
import textcleaner as tc

或者

^{pr2}$

现在打电话给main_cleaner(<FILE_NAME>) 它将返回所有基本预处理的单词列表。在

网友

2楼 · 编辑于 2024-10-01 13:27:20

必须将replace函数的inplace参数设置为true，或者将返回的df赋给df变量

编程相关推荐

if语句如何使用Java计算输入的平均值？
尝试构建安卓Studio（液体滑动）上板屏幕时，任务“：app:processDebugMainManifest”的java执行失败
java Android开发：在单独的类文件中有一个异步任务
java无法在SAXParser中解析文件和处理程序
java在ResultSet类型_SCROLL _SENSITIVE和类型_SCROLL _SENSITIVE之间的差异
如何从Java客户端（没有CSV文件）创建BigQuery数据集和表/模式
java如何在应用程序运行时存储、编辑和删除数据。安卓
java我们需要HyperJAXB生成的hashCode&equals方法吗？
java如何为我的图形制作addedge函数。我需要将边添加到节点
c语言中的java代码点等价物#

相关问题更多 >

编程相关推荐

热门问题

热门文章