Python中文
首页
教程
问答
标签
搜索
登录
注册
如何在pyspark数据帧中将字符串类型的列转换为int形式?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我在pyspark有数据帧。它的一些数字列包含“nan”,因此当我读取数据并检查dataframe的模式时,这些列将具有“string”类型。如何将它们更改为int类型。我将“nan”值替换为0,然后再次检查架构,但同时也显示了这些列的字符串类型。我遵循以下代码:</p> <pre><code>data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true") data_df.printSchema() data_df = data_df.fillna(0) data_df.printSchema() </code></pre> <p>我的数据如下: <a href="https://i.stack.imgur.com/JslnA.png" rel="noreferrer"><img src="https://i.stack.imgur.com/JslnA.png" alt="enter image description here"/></a></p> <p>这里的列'Plays'和'drafts'包含整数值,但由于这些列中存在nan,因此它们被视为字符串类型。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在用<code>0</code>替换<code>NaN</code>之后,可以使用<code>cast</code>(作为int)</p> <pre><code>data_df = df.withColumn("Plays", df.call_time.cast('float')) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法*更新*pycharm教育
3 回答
无法\n更正Python语法:count
8 回答
无法aptget安装包E:Subprocess/usr/bin/dpkg返回错误代码(1)
10 回答
无法base64正确解码utf8特殊字符
1 回答
无法grep python程序的输出,可能是utf16
8 回答
无法imp
6 回答
无法mkdir,找不到文件
1 回答
无法mmap 1024字节无法分配内存,即使内存超过了足够的内存
7 回答
无法npm安装secp256k1
5 回答
无法pickable<type'function'>:属性查找\uuuu内置\uuuuuu。函数失败池.map()
8 回答
无法pickle _线程。_本地对象错误
3 回答
无法pickle datetime子类
4 回答
无法pickle matplotlib图:错误“无法pickle'tkapp'对象”
9 回答
无法pickle python 3中的lambda函数
1 回答
无法pickle Python类实例
4 回答
无法pickle redispy实例(_螺纹锁紧)
6 回答
无法pickle Scikit learn nearest nearchneighbor分类器无法pickle instancemethod对象
5 回答
无法pickle tensorflow.python.\u tf\u stack.StackSummary对象
2 回答
无法pickle_thread.RLock对象Pyspark模型
2 回答
无法pickle:属性查找内置函数失败
6 回答