在机器学习中使用python替换数据集中无用的字符以清理数据集

1条回答

网友

1楼 · 发布于 2024-09-30 16:29:50

我猜部分/所有问号都被一些看不见的字符包围，如空格、制表符或换行符。例如，考虑以下样本数据：

import pandas as pd
import numpy as np

dataset = pd.DataFrame({
    'age': [19, 28, 41, 30],
    'workclass': ['?', 'Private', 'Self-emp-inc', '   ?'],
    'occupation': ['Sales', '?', '?    ', 'Tech-support']
})

如果我们使用print(dataset)，我们会看到：

   age     workclass    occupation
0   19             ?         Sales
1   28       Private             ?
2   41  Self-emp-inc         ?    
3   30             ?  Tech-support

如果我们仔细查看打印的数据，我们可能会注意到，第三行的问号并不是唯一的，因为它没有与职业栏的右侧对齐。然而，第四排的问号似乎是唯一的，但事实并非如此。因此，在替换中的单个问号时

print(dataset.replace('?', np.NaN))

只有第一行和第二行中的是固定的：

   age     workclass    occupation
0   19           NaN         Sales
1   28       Private           NaN
2   41  Self-emp-inc         ?    
3   30             ?  Tech-support

这可以通过替换空白来解决。我们可以使用正则表达式，如中所示

print(dataset.replace('\\s*\?\\s*', np.NaN, regex=True))

结果将是：

   age     workclass    occupation
0   19           NaN         Sales
1   28       Private           NaN
2   41  Self-emp-inc           NaN
3   30           NaN  Tech-support

相关问题更多 >

编程相关推荐

热门问题

热门文章

在机器学习中使用python替换数据集中无用的字符以清理数据集

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >