Python中支持向量机的libsvm特征示例问题的回答

Python中支持向量机的libsvm特征示例

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我在易趣上刮了很多类似这样的标题： <pre><code>Apple iPhone 5 White 16GB Dual-Core </code></pre> 我已经用这种方式手动标记了所有这些 <pre><code>B M C S NA </code></pre> 其中B=品牌（苹果）M=型号（iPhone 5）C=颜色（白色）S=尺寸（大小）NA=未分配（双核） 现在我需要使用python中的libsvm库来训练一个支持向量机分类器，以学习ebay标题中出现的序列模式。 我需要为这些属性（品牌、型号、颜色、尺寸）提取新的值，将问题视为一个分类问题。这样我就可以预测新的模型。 我想考虑以下特点： <pre><code>* Position - from the beginning of the title - to the end of the listing * Orthographic features - current word contains a digit - current word is capitalized .... </code></pre> 我不明白我怎么能把这些信息都给图书馆。官方文件缺少很多信息 我的班级是品牌、型号、尺码、颜色、不适用 SVM算法的输入文件必须包含什么？ 如何创建它？我能举一个例子来说明这个文件吗？考虑到我在问题中举例说明的4个特性？我也可以有一个代码的例子，我必须用来详细说明输入文件吗？ *更新* 我想代表这些特征。。。我该怎么办？ <ol> <li>当前单词的标识</li> </ol> 我想我可以这样解释 <pre><code>0 --> Brand 1 --> Model 2 --> Color 3 --> Size 4 --> NA </code></pre> 如果我知道这个词是一个品牌，我会把这个变量设为1（真）。在训练测试中这样做是可以的（因为我已经标记了所有的单词），但是我怎样才能在测试集上这样做呢？我不知道一个词的类别是什么（这就是我学习这个词的原因：D）。 <ol start=“2”> <li>当前单词的N-克子串特征（N=4,5,6）不知道，这是什么意思？</li> <li>当前单词前两个单词的同一性。如何对该功能建模？</li> </ol> 考虑到我为第一个特性创建的图例，我有5^（5）个组合） <pre><code>00 10 20 30 40 01 11 21 31 41 02 12 22 32 42 03 13 23 33 43 04 14 24 34 44 </code></pre> 如何将其转换为libsvm（或scikit learn）可以理解的格式？ <ol start=“4”> <li>4个属性词典的成员</li> </ol> 再说一遍，我该怎么做？有4个字典（颜色、大小、型号和品牌），我想我必须创建一个bool变量，只有在4个字典中有一个与当前单词匹配时，我才会将其设置为true。 <ol start=“5”> <li>商标名词典独家会员</li> </ol> 我觉得这和第四部一样。特性我必须使用bool变量。你同意吗？

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

下面是一个分步指导，教你如何使用数据训练支持向量机，然后使用相同的数据集进行评估。也可以在<a href="http://nbviewer.ipython.org/gist/anonymous/2cf3b993aab10bf26d5f" rel="nofollow noreferrer">http://nbviewer.ipython.org/gist/anonymous/2cf3b993aab10bf26d5f</a>找到。在url中，您还可以看到中间数据的输出和结果的准确性（这是一个<a href="http://ipython.org/notebook.html" rel="nofollow noreferrer">iPython notebook</a>） <h3>步骤0：安装依赖项</h3> 您需要安装以下库： <ul> <li>熊猫</li> <li>scikit学习</li> </ul> 从命令行： <pre><code>pip install pandas pip install scikit-learn </code></pre> <h3>步骤1：加载数据</h3> 我们将使用熊猫来加载我们的数据。 pandas是一个易于加载数据的库。为了说明这一点，我们首先保存示例数据到csv，然后加载它。 我们将用<code>train.csv</code>训练支持向量机，并用<code>test.csv</code>获取测试标签 <pre><code>import pandas as pd train_data_contents = """ class_label,distance_from_beginning,distance_from_end,contains_digit,capitalized B,1,10,1,0 M,10,1,0,1 C,2,3,0,1 S,23,2,0,0 N,12,0,0,1""" with open('train.csv', 'w') as output: output.write(train_data_contents) train_dataframe = pd.read_csv('train.csv') </code></pre> <h3>步骤2：处理数据</h3> 我们将把数据帧转换成numpy数组，这是scikit的格式- 学会理解。 我们需要转换标签“B”、“M”、“C”，。。。也因为支持向量机不懂弦乐。 然后用数据训练一个线性支持向量机 <pre><code>import numpy as np train_labels = train_dataframe.class_label labels = list(set(train_labels)) train_labels = np.array([labels.index(x) for x in train_labels]) train_features = train_dataframe.iloc[:,1:] train_features = np.array(train_features) print "train labels: " print train_labels print print "train features:" print train_features </code></pre> 我们在这里看到，<code>train_labels</code>（5）的长度正好匹配多少行我们有<code>trainfeatures</code>。<code>train_labels</code>中的每个项对应一行。 <h3>步骤3：训练SVM</h3> <pre><code>from sklearn import svm classifier = svm.SVC() classifier.fit(train_features, train_labels) </code></pre> <h3>步骤4：在一些测试数据上评估支持向量机</h3> <pre><code>test_data_contents = """ class_label,distance_from_beginning,distance_from_end,contains_digit,capitalized B,1,10,1,0 M,10,1,0,1 C,2,3,0,1 S,23,2,0,0 N,12,0,0,1 """ with open('test.csv', 'w') as output: output.write(test_data_contents) test_dataframe = pd.read_csv('test.csv') test_labels = test_dataframe.class_label labels = list(set(test_labels)) test_labels = np.array([labels.index(x) for x in test_labels]) test_features = test_dataframe.iloc[:,1:] test_features = np.array(test_features) results = classifier.predict(test_features) num_correct = (results == test_labels).sum() recall = num_correct / len(test_labels) print "model accuracy (%): ", recall * 100, "%" </code></pre> <h3>链接和提示</h3> <ul> <li>如何加载LinearSVC的示例代码：<a href="http://scikitlearn.org/stable/modules/svm.html#svm" rel="nofollow noreferrer">http://scikitlearn.org/stable/modules/svm.html#svm</a></li> <li>scikit学习示例的长列表：<a href="http://scikitlearn.org/stable/auto_examples/index.html" rel="nofollow noreferrer">http://scikitlearn.org/stable/auto_examples/index.html</a>。我发现这些有点帮助，但是经常弄糊涂自己。</li> <li>如果您发现SVM需要很长时间来训练，请尝试LinearSVC 取而代之：<a href="http://scikitlearn.org/stable/modules/generated/sklearn.svm.LinearSVC.html" rel="nofollow noreferrer">http://scikitlearn.org/stable/modules/generated/sklearn.svm.LinearSVC.html</a></li> <li>下面是另一个熟悉机器学习模型的教程：<a href="http://scikit-learn.org/stable/tutorial/basic/tutorial.html" rel="nofollow noreferrer">http://scikit-learn.org/stable/tutorial/basic/tutorial.html</a></li> </ul> 您应该能够使用此代码并用您的培训数据替换<code>train.csv</code>，用您的测试数据替换<code>test.csv</code>，并获得测试数据的预测和准确结果。 请注意，由于您使用的是您培训过的数据，因此评估的准确性将异常高。

Python中支持向量机的libsvm特征示例

1 个回答

相关Python问题