在Python中选择彼此差异最大的字符串

for i in range(0, 10): L.append(spintax.spin( " ----<h1>{" +Title+ " - {køb online|sammenlign {priser|online supermarkederne}} via x.dk|Få din "+y+ "\ leveret til døren og spar penge via x.dk|Køb din "+y+ " online og spar penge via x.dk }\ \n \ ----<h2>{{Få adgang til|vælg fra} {et stort|Danmarks største} {udvalg} af} " +y+ "<h2>\ \n \ {Når|Hvis} du {besøger|handler ind gennem|benytter|køber ind via|køber dine varer via}\ x.dk, {er det {vigtigt|væsentligt} at forstå|skal du huske|skal du vide}")) L2.append(df['ID'][index]) df2 = pd.DataFrame(np.column_stack([L, L2]), columns=['Text' ,'ID'])

Index Text Id 0 <h1>Få din Mælk & Fløde leveret til 4169 døren og spar penge via... 1 <h1>Mælk & Fløde - køb online via x.dk 4169 .... 12 <h1>Få din Yoghurt leveret til døren 4178 og spar penge via ....

1条回答

网友

1楼 · 发布于 2024-10-02 18:26:55

在下面的数据中，Text在Index0 & 2和Text在Index4 & 5中最相似，因为它们包含彼此的文本。所以最不相似的是每个Index1 & 3之间的Id

为了找到最不相似的Text，我们可以使用TF-IDF将每个Text编码成一个数字向量。然后，我们找到每组中每对行之间的euclidean distance，并对每行的距离求和，并假设最大平均值是最不相似的。最后，我们获取每组Id's平均值最大的索引。你知道吗

数据：

| Index | Text                                                       | Id   |
|   -|                              |   |
| 0     | Få din Mælk & Fløde leveret til døren og spar penge via... | 4169 |
| 1     | Mælk & Fløde - køb online via x.dk                         | 4169 |
| 2     | Fløde leveret til døren og spar penge via...               | 4169 |
| 3     | Få din Mælk & Fløde leveret til døren og spar penge via... | 4170 |
| 4     | Mælk & Fløde - køb online via x.dk                         | 4170 |
| 5     | køb online via x.dk                                        | 4170 |

在：

from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cdist

df = pd.read_clipboard()
df.columns = df.columns.str.strip()

v = TfidfVectorizer()
X = v.fit_transform(df['Text'])

df = df.join(pd.DataFrame(X.toarray()))

group = df.groupby('Id', as_index=False)

df = group.apply(lambda x : x.iloc[cdist(x.iloc[:,3:].values, x.iloc[:,3:].values).mean(axis=0).argmax()])

df[['Index', 'Text', 'Id']]

输出：

|   | Index | Text                                                       | Id   |
| -|   -|                              |   |
| 0 | 1     | Mælk & Fløde - køb online via x.dk                         | 4169 |
| 1 | 3     | Få din Mælk & Fløde leveret til døren og spar penge via... | 4170 |

相关问题更多 >

编程相关推荐

热门问题

热门文章