创建字符串在数据帧中是否存在的二进制表示问题的回答

创建字符串在数据帧中是否存在的二进制表示

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个由多个列组成的数据帧，这些列的单元格可能包含字符串，也可能不包含字符串。例如： <pre><code>import numpy as np import pandas as pd df = pd.DataFrame({'A':['asfe','eseg','eesg','4dsf','','hdt','gase','gex','gsges','hhbr'], 'B':['','bdb','htsdg','','rdshg','th','tjf','','',''], 'C':['hrd','jyf','sef','hdsr','','','','','hdts','aseg'], 'D':['','','hdts','afse','nfd','','htf','','',''], 'E':['','','','','jftd','','','','jfdt','']}) </code></pre> …看起来像： <pre><code> A B C D E 0 asfe hrd 1 eseg bdb jyf 2 eesg htsdg sef hdts 3 4dsf hdsr afse 4 rdshg nfd jftd 5 hdt th 6 gase tjf htf 7 gex 8 gsges hdts jfdt 9 hhbr aseg </code></pre> 我想创建一个列，该列包含一个二进制表示，表示该列是否包含字符串；例如，第一行将表示为10100。你知道吗 我唯一能想到的办法是： <ol> <li>创建临时数据帧</li> <li>逐列检测单元格是否包含字符并表示为0/1</li> <li>将二进制结果串联成单个字符串</li> <li>将列从头复制到原始数据帧。你知道吗</li> </ol> 这是我创建的代码： <pre><code>scratchdf = pd.DataFrame().reindex_like(df) for col in df.columns.values: scratchdf[col] = df[col].str.contains(r'\w+',regex = True).astype(int) scratchdf['bin'] = scratchdf['A'].astype(str) + \ scratchdf['B'].astype(str) + \ scratchdf['C'].astype(str) + \ scratchdf['D'].astype(str) + \ scratchdf['E'].astype(str) df = df.join(scratchdf['bin']) </code></pre> …生成最终数据帧： <pre><code> A B C D E bin 0 asfe hrd 10100 1 eseg bdb jyf 11100 2 eesg htsdg sef hdts 11110 3 4dsf hdsr afse 10110 4 rdshg nfd jftd 01011 5 hdt th 11000 6 gase tjf htf 11010 7 gex 10000 8 gsges hdts jfdt 10101 9 hhbr aseg 10100 </code></pre> 这是可行的，但似乎有点浪费（尤其是对于大数据帧）。有没有一种方法可以直接创建二进制表示列，而不需要创建临时数据帧？你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

方法1 <pre><code>a = np.where(df != "", "1", "0").astype("|S1") df["bin"] = np.apply_along_axis(lambda x: x.tostring().decode("utf-8"), 1, a) </code></pre> 方法2 <pre><code>df["bin"] = np.append( np.where(df != "", "1", "0").astype("S1"), np.array([["\n"]]).astype("S1").repeat(df.shape[0], axis=0), axis=1 ).tostring().decode("utf-8")[:-1].split("\n") </code></pre> 方法2将<code>\n</code>追加到numpy数组的末尾 <pre><code>array([[b'1', b'0', b'1', b'0', b'0', b'\n'], [b'1', b'1', b'1', b'0', b'0', b'\n'], [b'1', b'1', b'1', b'1', b'0', b'\n'], ..., [b'1', b'0', b'0', b'0', b'0', b'\n'], [b'1', b'0', b'1', b'0', b'1', b'\n'], [b'1', b'0', b'1', b'0', b'0', b'\n']], dtype='|S1') </code></pre> 然后调用<code>tostring</code>和<code>decode</code>。删除最后一个“\n”，然后按“\n”拆分。你知道吗 方法3（使用<code>view</code>参考：<a href="https://stackoverflow.com/questions/10984471/numpy-array-of-chars-to-string">numpy array of chars to string</a>） <pre><code>np.ascontiguousarray( np.where(df != "", "1", "0").astype("S1") ).view('|S5').astype(str) </code></pre> <h2>时间安排：</h2> <pre><code>(Based on jezrael's setup df = pd.concat([df] * 1000, ignore_index=True)) # method 2 %timeit np.append(np.where(df != "", "1", "0").astype("S1"), np.array([["\n"]]).astype("S1").repeat(df.shape[0], axis=0), axis=1).tostring().decode("utf-8")[:-1].split("\n") 12.3 ms ± 175 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) # method 3 %timeit np.ascontiguousarray(np.where(df != "", "1", "0").astype("S1")).view('|S5').astype(str) 12.8 ms ± 164 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) # method 1 (slower) %timeit np.apply_along_axis(lambda x: x.tostring().decode("utf-8"), 1, np.where(df != "", "1", "0").astype("S1")) 45 ms ± 1.86 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) </code></pre> 耶斯雷尔的复制实验 <pre><code>In [99]: %timeit df.astype(bool).astype(int).astype(str).values.sum(axis=1) 28.9 ms ± 782 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [100]: %timeit (df != '').astype(int).astype(str).values.sum(axis=1) 29 ms ± 645 µs per loop (mean ± std. dev. of 7 runs, 10 loops each) In [101]: %timeit (df != '').astype(int).astype(str).apply(''.join, axis=1) 168 ms ± 2.93 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) In [102]: %timeit df.astype(bool).astype(int).astype(str).apply(''.join, axis=1) 173 ms ± 7.36 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) In [103]: %timeit df.astype(bool).astype(int).apply(lambda row: ''.join(str(i) for i in row), axis=1) 159 ms ± 3.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) </code></pre>

创建字符串在数据帧中是否存在的二进制表示

1 个回答

相关Python问题