大Pandas样本数据集问题的回答

大Pandas样本数据集

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<p>自从我最初编写这个答案以来，我已经用许多方法更新了它，这些方法现在可用于访问Python中的示例数据集。就我个人而言，无论我是什么样的人已经在使用（通常是海生或熊猫）。如果需要脱机访问，用被子安装数据集似乎是唯一的选择。</p> <h2>海伯恩</h2> <p>出色的绘图包<code>seaborn</code>有几个内置的示例数据集。</p> <pre><code>import seaborn as sns iris = sns.load_dataset('iris') iris.head() </code></pre> <pre class="lang-none prettyprint-override"><code> sepal_length sepal_width petal_length petal_width species 0 5.1 3.5 1.4 0.2 setosa 1 4.9 3.0 1.4 0.2 setosa 2 4.7 3.2 1.3 0.2 setosa 3 4.6 3.1 1.5 0.2 setosa 4 5.0 3.6 1.4 0.2 setosa </code></pre> <h2>熊猫</h2> <p>如果您不想导入<code>seaborn</code>，但仍想访问<a href="https://github.com/mwaskom/seaborn-data" rel="noreferrer">its sample data sets</a>，则可以对seaborn示例使用@andrewwowens方法数据：</p> <pre><code>iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv') </code></pre> <p>注意，包含分类列的示例数据集有它们的<a href="https://github.com/mwaskom/seaborn/blob/10bdb18f47bb5fc0a30d34954ff6f174b4cf5881/seaborn/utils.py#L396" rel="noreferrer">column type modified by ^{<cd3>}</a>，结果可能不相同直接从url获取。iris和tips示例数据集也包括在pandas github repo<a href="https://github.com/pydata/pandas/tree/master/pandas/tests/data" rel="noreferrer">here</a>中提供。</p> <h2>R样本数据集</h2> <p>由于任何数据集都可以通过<code>pd.read_csv()</code>读取，因此可以访问所有通过从<a href="https://vincentarelbundock.github.io/Rdatasets/datasets.html" rel="noreferrer">this R data set repository</a>复制url来复制R的示例数据集。</p> <p>加载R示例数据集的其他方法包括 <a href="http://www.statsmodels.org/stable/datasets/index.html#datasets" rel="noreferrer">^{<cd5>}</a></p> <pre><code>import statsmodels.api as sm iris = sm.datasets.get_rdataset('iris').data </code></pre> <p>和<a href="https://github.com/iamaziz/PyDataset" rel="noreferrer">^{<cd6>}</a></p> <pre><code>from pydataset import data iris = data('iris') </code></pre> <h2>scikit学习</h2> <p><code>scikit-learn</code>将样本数据作为numpy数组而不是pandas数据返回框架。</p> <pre><code>from sklearn.datasets import load_iris iris = load_iris() # `iris.data` holds the numerical values # `iris.feature_names` holds the numerical column names # `iris.target` holds the categorical (species) values (as ints) # `iris.target_names` holds the unique categorical names </code></pre> <h2>被子</h2> <p><a href="https://quiltdata.com/" rel="noreferrer">Quilt</a>是为方便数据集管理。它包括许多常见的示例数据集，例如 <a href="https://quiltdata.com/package/uciml/" rel="noreferrer">several</a>来自<a href="https://archive.ics.uci.edu/ml/index.php" rel="noreferrer">uciml sample repository</a>。<a href="https://docs.quiltdata.com/get-started/quick-start" rel="noreferrer">quick start page</a>显示了如何安装并导入iris数据集：</p> <pre><code># In your terminal $ pip install quilt $ quilt install uciml/iris </code></pre> <p>安装数据集后，可以在本地访问它，因此如果希望脱机处理数据，这是最佳选择。</p> <pre><code>import quilt.data.uciml.iris as ir iris = ir.tables.iris() </code></pre> <pre class="lang-none prettyprint-override"><code> sepal_length sepal_width petal_length petal_width class 0 5.1 3.5 1.4 0.2 Iris-setosa 1 4.9 3.0 1.4 0.2 Iris-setosa 2 4.7 3.2 1.3 0.2 Iris-setosa 3 4.6 3.1 1.5 0.2 Iris-setosa 4 5.0 3.6 1.4 0.2 Iris-setosa </code></pre> <p>coil还支持数据集版本控制，并包含每个数据集的<a href="https://quiltdata.com/package/uciml/iris/" rel="noreferrer">short description</a>。</p>

大Pandas样本数据集

1 个回答

相关Python问题