擅长:python、mysql、java
<p>这完全取决于你的数据。对于您给出的示例,一个简单的规范化解决方案可以是:</p>
<pre><code>import re
book_normalized = re.sub(r':.*|\[.*?\]|\(.*?\)|\{.*?\}', '', book_name).strip()
</code></pre>
<p>这将返回所有例子的“霍比特人”。它所做的是删除第一个冒号之后的任何内容,或方括号中的任何内容(普通、方形、卷曲)以及前导空格和尾随空格。在</p>
<p>然而,在一般情况下,这不是一个很好的解决方案,因为有些书在实际书名中有冒号或括号部分。E、 g.序列的名称,后跟冒号,然后是序列的特定项的名称。在</p>