<p>自从我最初编写这个答案以来,我已经用许多方法更新了它,这些方法现在可用于访问Python中的示例数据集。就我个人而言,无论我是什么样的人
已经在使用(通常是海生或熊猫)。如果需要脱机访问,
用被子安装数据集似乎是唯一的选择。</p>
<h2>海伯恩</h2>
<p>出色的绘图包<code>seaborn</code>有几个内置的示例数据集。</p>
<pre><code>import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
</code></pre>
<pre class="lang-none prettyprint-override"><code> sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
</code></pre>
<h2>熊猫</h2>
<p>如果您不想导入<code>seaborn</code>,但仍想访问<a href="https://github.com/mwaskom/seaborn-data" rel="noreferrer">its sample
data sets</a>,则可以对seaborn示例使用@andrewwowens方法
数据:</p>
<pre><code>iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
</code></pre>
<p>注意,包含分类列的示例数据集有它们的<a href="https://github.com/mwaskom/seaborn/blob/10bdb18f47bb5fc0a30d34954ff6f174b4cf5881/seaborn/utils.py#L396" rel="noreferrer">column
type modified by ^{<cd3>}</a>,结果可能不相同
直接从url获取。iris和tips示例数据集也包括
在pandas github repo<a href="https://github.com/pydata/pandas/tree/master/pandas/tests/data" rel="noreferrer">here</a>中提供。</p>
<h2>R样本数据集</h2>
<p>由于任何数据集都可以通过<code>pd.read_csv()</code>读取,因此可以访问所有
通过从<a href="https://vincentarelbundock.github.io/Rdatasets/datasets.html" rel="noreferrer">this R data set
repository</a>复制url来复制R的示例数据集。</p>
<p>加载R示例数据集的其他方法包括
<a href="http://www.statsmodels.org/stable/datasets/index.html#datasets" rel="noreferrer">^{<cd5>}</a></p>
<pre><code>import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
</code></pre>
<p>和<a href="https://github.com/iamaziz/PyDataset" rel="noreferrer">^{<cd6>}</a></p>
<pre><code>from pydataset import data
iris = data('iris')
</code></pre>
<h2>scikit学习</h2>
<p><code>scikit-learn</code>将样本数据作为numpy数组而不是pandas数据返回
框架。</p>
<pre><code>from sklearn.datasets import load_iris
iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
</code></pre>
<h2>被子</h2>
<p><a href="https://quiltdata.com/" rel="noreferrer">Quilt</a>是为方便
数据集管理。它包括许多常见的示例数据集,例如
<a href="https://quiltdata.com/package/uciml/" rel="noreferrer">several</a>来自<a href="https://archive.ics.uci.edu/ml/index.php" rel="noreferrer">uciml sample
repository</a>。<a href="https://docs.quiltdata.com/get-started/quick-start" rel="noreferrer">quick start
page</a>显示了如何安装
并导入iris数据集:</p>
<pre><code># In your terminal
$ pip install quilt
$ quilt install uciml/iris
</code></pre>
<p>安装数据集后,可以在本地访问它,因此如果希望脱机处理数据,这是最佳选择。</p>
<pre><code>import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
</code></pre>
<pre class="lang-none prettyprint-override"><code> sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
</code></pre>
<p>coil还支持数据集版本控制,并包含每个数据集的<a href="https://quiltdata.com/package/uciml/iris/" rel="noreferrer">short
description</a>。</p>