使用beauthoulsoup提取<br>后的文本

for br in soup.find_all('br'): text = br.next_sibling try: print text.strip().replace("\t", " ").replace("\r", " ").replace('\n', ' ') except AttributeError: print('...')

1条回答

网友

1楼 · 发布于 2024-09-24 22:26:58

我仍将继续依赖span元素的underline样式。下面是一个示例代码，可以帮助您入门（使用^{}）：

for span in soup.select('p > span[style*=underline]'):
    texts = []
    for sibling in span.next_siblings:
        # break upon reaching the next span 
        if sibling.name == "span":
            break

        text = sibling.get_text(strip=True) if isinstance(sibling, Tag) else sibling.strip()
        if text:
            texts.append(text.replace("\n", " "))

    if texts:
        text = " ".join(texts)
        print(span.text.strip(), text.strip())

编程相关推荐

javaelk：如何在Kibana中按异常类对stacktrace进行分组
java两个组件使用MigLayout相互重叠
java Hibernate标准获取关联实体的列表，而不是父实体的列表
从Java关闭另一个应用程序，但不是由当前Java应用程序启动
java使用OGNL获取参数
java如何在SSLEngine中启用密码TLS\U DHE\U RSA\U和\U AES\U 256\U GCM\U SHA384
在Java中有效地比较两个列表<Object[]>
java杀死挂起的线程
在java中从指定模式前后的字符串中提取子字符串
存储整数的java HashMap替代方案

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beauthoulsoup提取<br>后的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >