我有一个数据框,其中包含许多不同的表情符号,我想删除它们。我看了类似问题的答案,但它们对我不起作用
index| messages
----------------
1 |Hello! 👋
2 |Good Morning 😃
3 |How are you ?
4 | Good 👍
5 | Ländern
现在,我想从数据帧中删除所有这些表情符号,看起来像这样
index| messages
----------------
1 |Hello!
2 |Good Morning
3 |How are you ?
4 | Good
5 |Ländern
我在这里尝试了这个解决方案,但不幸的是,它也删除了所有非英语字母,如“ä” How can I remove emojis from a dataframe?
我想下面是对你问题的回答。我添加了一些其他字符以进行验证
此解决方案将保留所有ASCII和拉丁-1字符,即this list中U+0000和U+00FF之间的字符。对于扩展拉丁语加希腊语,请使用
< 1024
:结果:
注意:例如,这不适用于日文文本。另一个问题是心脏的“表情符号”实际上是一个Dingbat,所以我不能简单地过滤Unicode的Basic Multilingual Plane,哦,好吧
相关问题 更多 >
编程相关推荐