带有guillemets (»)
特殊字符形式分隔符的文件可以在MS SQL
服务器import wizard
中干净地导入。如果是html
帧,可以使用Python Re
函数替换它们,但是要在Python
和我们的Azure
数据池中实现自动化,我们无法正确解析文件
import re
content = '<"12345"»"54321"»"Bobby"»"Tables"»>'
res = re.sub('»', '|', content)
print(res)
返回:
<"12345"|"54321"|"Bobby"|"Tables"|>
然而:
from pyspark.sql import * #SQLContext
import pandas as dp
import codecs
import re
mydf = spark.read.format('text').options(
header='TRUE',delimiter='|',quotechar='"', encoding='utf-16').load("dbfs:/mnt/datalake/file_with_guillemets.txt")
res = re.sub('»', '|',mydf)
display(res)
抛出错误:
TypeError: expected string or bytes-like object
我试着将数据框转换成HTML,但这让事情变得更糟
目前没有回答
相关问题 更多 >
编程相关推荐