我试图通过Python对拉丁语/非拉丁语数据进行分类。如果是拉丁语,我希望输出为'columnname:Latin',如果是非拉丁语,输出为'columnname:Non Latin'。以下是我使用的数据集:
name|company|address|ssn|creditcardnumber
Gauge J. Wiley|Crown Holdings|1916 Central Park Columbus|697-01-963|4175-0049-9703-9147
Dalia G. Valenzuela|Urs Corporation|8672 Cottage|Cincinnati|056-74-804|3653-0049-5620-71
هاها|Exide Technologies|هاها|Washington|139-09-346|6495-1799-7338-6619
我试着添加下面的代码。我没有错,但我一直都懂拉丁语。代码有问题吗?你知道吗
if any(dataset.name.astype(str).str.contains(u'[U+0000-U+007F]')):
print ('Latin')
else:
print('Non-Latin')
而且,如果有人能告诉我如何将输出显示为“column name:Latin”,即从dataframe迭代的列名,我也会很高兴
这取决于需要什么-如果检查任何值是否有非拉丁值或所有值是否有带^{} 的字符串:
相关问题 更多 >
编程相关推荐