<p>如果你逐个看你的字符串</p>
<pre><code>>>> data = "कुरुक्षेत्र"
>>> re.findall(".", data)
['क', 'ु', 'र', 'ु', 'क', '्', 'ष', 'े', 'त', '्', 'र']
</code></pre>
<p>还有你的另一根绳子</p>
^{pr2}$
<p>所以您需要的是使用<code>'्</code><code>'्</code>来拆分这些。现在我们把它们称为符号字符。如果为第一个符号字符打印<code>ord(data[2])</code>,则它是<code>2381</code>。现在,如果你探究一下这个值</p>
<pre><code>>>> for i in range(2350, 2400):
... print(i, chr(i))
...
2350 म
2351 य
2352 र
2353 ऱ
2354 ल
2355 ळ
2356 ऴ
2357 व
2358 श
2359 ष
2360 स
2361 ह
2362 ऺ
2363 ऻ
2364 ़
2365 ऽ
2366 ा
2367 ि
2368 ी
2369 ु
2370 ू
2371 ृ
2372 ॄ
2373 ॅ
2374 ॆ
2375 े
2376 ै
2377 ॉ
2378 ॊ
2379 ो
2380 ौ
2381 ्
2382 ॎ
2383 ॏ
2384 ॐ
2385 ॑
2386 ॒
2387 ॓
2388 ॔
2389 ॕ
2390 ॖ
2391 ॗ
2392 क़
2393 ख़
2394 ग़
2395 ज़
2396 ड़
2397 ढ़
2398 फ़
2399 य़
</code></pre>
<p>我们主要对<code>2362</code>和{<cd6>}之间的值感兴趣。所以我们创建一个这样的值数组</p>
<pre><code>>>> split = ""
>>> for i in range(2362, 2392):
... split += chr(i)
</code></pre>
<p>下一步我们要找一个没有符号的图案。在</p>
<pre><code>>>> re.findall(".[" + split + "]?", "धर्मक्षेत्रे")
['ध', 'र्', 'म', 'क्', 'षे', 'त्', 'रे']
>>> re.findall(".[" + split + "]?", "कुरुक्षेत्र")
['कु', 'रु', 'क्', 'षे', 'त्', 'र']
</code></pre>
<p>这会让你接近你想要的东西。如果您需要更复杂的处理,那么您将不得不使用@OphirYoktan发布的链接</p>