我有一个多页pdf银行对账单,我正在使用tesseract OCR将其转换为数据帧。我已经在pdf中的几行中编辑了帐号。考虑下面的行是3分裂:
'ACCOUNT TYPE A/C. BALANCE (I) | FIXED DEPOSITS (LINKED) BAL. (II) TOTAL BALANCE (I+!l) NOMINATION',`
'Savings A/c XXXXXXXX1002 4,58,636.08 0.00 4,58,636.08 Not Registered',
'TOTAL 4,58,636.08 0.00 4,58,636.08',
最后4个数字可能会更改,但始终为整数,字符串的长度始终为12。我想提取这个位:XXXXXXXX1002。 我试过了
for line in splits:
if re.search(r'^[A-Z].*([0-9]{4}$)',line):
AC = line
但它没有起作用
如果它在dataframe中,只需在文本所在的列中使用
extract()
相关问题 更多 >
编程相关推荐