Pandas read_csv忽略不合格行

Iron Oxide (FeO) Fe1O1(cr,l) T(K) Cp S -[G-H(Tr)]/T H-H(Tr) delta-f H delta-f G log Kf 0 100 200 298.15 49.915 60.752 60.752 0. -272.044 -251.429 44.049 300 49.999 61.061 60.753 0.092 -272.025 -251.301 43.755 400 51.840 75.704 62.737 5.187 -271.044 -244.543 31.934 . . .

2条回答

网友

1楼 · 编辑于 2024-07-05 15:23:34

如果您需要更通用的解决方案，请尝试：

#number 15 in range(15) depends of max number of tabs, in my test data 
df1 = pd.read_csv('JANAF-FeO.txt', delimiter='\t', names=(range(15)))

#remove columns with all NaN
df1 = df1.dropna(axis=1, how='all')
df1.columns = df1.iloc[1,:]
df1 = df1[2:]

#mask if there are not 7 times NaN in line
mask = df1.isnull().sum(axis=1) != 7
df1 = df1[mask]

print df1

网友

2楼 · 编辑于 2024-07-05 15:23:34

听起来你的问题是那些奇怪的单值行上有额外的标签。在

幸运的是，sep参数采用正则表达式。我尽我所能重新创建了您的数据集，并从以下read_csv获得了一个外观不错的df：

ipdb> test = pd.read_csv('test.txt', skiprows=(1), header=(0), sep='\t*')
ipdb> test
 T(K)     Cp        S  -[G-H(Tr)]/T  H-H(Tr)  delta-f H  delta-f G  log Kf
0    0.00     NaN     NaN           NaN      NaN        NaN        NaN     NaN
1  100.00     NaN     NaN           NaN      NaN        NaN        NaN     NaN
2  200.00     NaN     NaN           NaN      NaN        NaN        NaN     NaN
3  298.15  49.915  60.752        60.752    0.100   -272.044   -251.429  44.049
4  300.00  49.999  61.061        60.753    0.092   -272.025   -251.301  43.755
5  400.00  51.840  75.704        62.737    5.187   -271.044   -244.543  31.934

希望这有帮助！在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas read_csv忽略不合格行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >