Pandas:经过要读取_csv()的分隔符值,因此对于其中一列,它被忽略

2024-06-25 23:33:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我从Kaggle得到了泰坦尼克号火车的数据集,我正试图将它导入熊猫数据框中。以下是数据集中的一些记录:

乘客,生还,乘客等级,姓名,性别,年龄,SibSp,Parch,机票,车费,客舱,已上船

  • 2,1,1,”卡明斯,约翰·布拉德利夫人(佛罗伦萨·布里格斯) Thayer)”,女,38,1,0,PC 17599,71.2833,C85,C

  • 3,1,3,“海基宁,小姐。Laina”,女,26,0,0,STON/O2。 3101282,7.925,秒

我想将它导入pandas dataframe,这样名称字段值(包含在双引号下)中的逗号不被视为分隔符,列也不会在该逗号处拆分。 E、 g.-对于上面示例中的第二条记录,Name字段的值为-“Heikkinen,Miss。“Laina”被视为单个值,不在HeikkinenMiss之间以逗号分隔。莱纳


Tags: 数据记录姓名逗号性别年龄火车kaggle
1条回答
网友
1楼 · 发布于 2024-06-25 23:33:46

来自https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html熊猫文档:

quotechar : str (length 1), optional

The character used to denote the start and end of a quoted item. Quoted items can include the delimiter and it will be ignored.

quoting : int or csv.QUOTE_* instance, default 0

Control field quoting behavior per csv.QUOTE_* constants. Use one of QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).

doublequote : boolean, default True

When quotechar is specified and quoting is not QUOTE_NONE, indicate whether or not to interpret two consecutive quotechar elements INSIDE a field as a single quotechar element.

所以我建议在你的read_csv调用中指定quotechar。在

相关问题 更多 >