导入带有guillemet特殊字符(»)的文本文件会在Python中产生问题。SQL server导入向导需要Python自动化吗

2024-09-21 01:20:08 发布

您现在位置:Python中文网/ 问答频道 /正文

带有guillemets (»)特殊字符形式分隔符的文件可以在MS SQL服务器import wizard中干净地导入。如果是html帧,可以使用Python Re函数替换它们,但是要在Python和我们的Azure数据池中实现自动化,我们无法正确解析文件

import re

content = '<"12345"»"54321"»"Bobby"»"Tables"»>'

res = re.sub('»', '|', content)

print(res)

返回:

<"12345"|"54321"|"Bobby"|"Tables"|>

然而:

from pyspark.sql import * #SQLContext
import pandas as dp
import codecs
import re

mydf = spark.read.format('text').options(
    header='TRUE',delimiter='|',quotechar='"', encoding='utf-16').load("dbfs:/mnt/datalake/file_with_guillemets.txt")

res = re.sub('»', '|',mydf)
display(res)

抛出错误:

TypeError: expected string or bytes-like object

我试着将数据框转换成HTML,但这让事情变得更糟


Tags: 文件数据importretablessqlrescontent

热门问题