Python中文
首页
教程
问答
标签
搜索
登录
注册
尝试从PDF提取时,“非类型对象不可编辑”
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我试图从PDF中提取数据,但我一直收到一个类型错误,因为我的对象不可编辑(在语句<code>for line in text:</code>上),但我不理解为什么“text”没有值,就在上面,我使用<code>text = page.extract.text()</code>创建了text对象,然后我想遍历文本的每一行,以找到与正则表达式匹配的内容</p> <p>我担心我的语句{<cd1>}是个问题;也许使用“line”不合适,但我不知道还能做什么</p> <p>我的代码在下面,谢谢你的关注</p> <pre><code>import requests import pdfplumber import pandas as pd import re from collections import namedtuple Line = namedtuple('Line', 'gbloc_name contact_type email') gbloc_re = re.compile(r'^(?:a\.\s[A-Z]{5}\:\s[A-Z]{4})') line_re = re.compile(r'^[^@\s]+@[^@\s]\.[^@\s]+$') file = 'sampleReport.pdf' lines=[] with pdfplumber.open(file) as pdf: pages = pdf.pages for page in pdf.pages: text = page.extract_text() for line in text: gbloc = gbloc_re.search(line) if gbloc: gbloc_name = gbloc elif line.startswith('Outbound'): contact_type = 'Outbound' elif line.startswith('Tracing'): contact_type = 'Tracing' elif line.startswith('Customer'): contact_type = 'Customer Service' elif line.startswith('QA'): contact_type = 'Quality Assurance' elif line.startswith('NTS'): contact_type = 'NTS' elif line.startswith('Inbound'): contact_type = 'Inbound' elif line_re.search(line): items = line.split() lines.append(Line(gbloc_name, contact_type, *items)) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>尝试将循环直接设置为与页面相等。extract_text()值。像这样:</p> <pre><code>with pdfplumber.open(file) as pdf: for page in pdf.pages: for line in page.extract_text(): </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
8 回答
文本小部件:在没有输入时更新并在循环后保持空闲
1 回答
文本小部件tkin
7 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
8 回答
文本小部件tkinter复制图像选项
3 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
1 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
3 回答
文本小部件不显示lis中的内容
5 回答
文本小部件不显示Unicode字符
6 回答
文本小部件中写入的行间距
7 回答
文本小部件中的文本作为变量
4 回答
文本小部件中的滚动条仅显示在底部
8 回答
文本小部件中的选项卡键空间计数
10 回答
文本小部件作为Lis
7 回答
文本小部件在主框架中扩展列宽
2 回答
文本小部件未使用删除功能清除
6 回答
文本小部件滚动动画(Tkinter、Python)
4 回答
文本居中。格式正确吗?
7 回答
文本差分算法
3 回答
文本已知时音频文件中的单词索引
5 回答