使用spacy清理/柠檬化荷兰数据集

import pandas as pd import re import numpy as np import pandas as pd from pprint import pprint import gensim import gensim.corpora as corpora from gensim.utils import simple_preprocess from gensim.models import CoherenceModel import pyLDAvis import pyLDAvis.gensim import matplotlib.pyplot as plt from nltk.corpus import stopwords import warnings warnings.filterwarnings("ignore", category=DeprecationWarning) df = pd.read_excel (r"C:xxxxxxxxxxx") print (df) df2_clean = df['text'].replace('https.*[^ ]', '',regex=True) df2_clean = df2_clean.replace('@([^ ]*)', '',regex=True) df2_clean = df2_clean.replace('#', '',regex=True) df2_clean = df2_clean.replace('RT', '',regex=True) df2_clean = df2_clean.replace('[0-9]+', '', regex=True) df2_clean tweets = [line for line in df2_clean] tweets import spacy import nltk from nltk.tokenize import RegexpTokenizer from nltk.corpus import stopwords nltk.download('wordnet') stopword_list = stopwords.words('dutch') + ['coronavirus','covid','corona'] #lemmatizer def lemmatizer(x): #lemmatize for x in x: doc = nlp(x) print(doc.text) for token in doc: lemmatized_list = [token.lemma_] cleaned_lemmas = [x for x in lemmatized_list if x not in stopword_list] return cleaned_lemmas lemmatizer(tweets)

Wanneer het niet mogelijk is om met de auto naar de teststraat te komen, kun je samen met een telefonisch medewerker de beste optie om je te laten testen bespreken. ^CM De tweede stap in het versoepelen van de coronamaatregelen zetten we vandaag. Alleen als iedereen zich aan de maatregelen houdt, zetten we samen een stap vooruit. Actuele informatie ⤵️ De tweede stap in het versoepelen van de coronamaatregelen zetten we vandaag. Alleen als iedereen zich aan de maatregelen houdt, zetten we samen een stap vooruit. Actuele informatie ⤵️ AlleenSamen De tweede stap in het versoepelen van de coronamaatregelen zetten we vandaag. Alleen als iedereen zich aan de maatregelen houdt, zetten we samen een stap vooruit. Actuele informatie ⤵️ AlleenSamen Heb je klachten als neusverkoudheid, hoesten en/of verhoging. Blijf dan thuis en laat je testen op het coronavirus. Bel het landelijke gratis telefoonnummer - en maak een testafspraak bij een GGD-locatie in de buurt.

1条回答

网友

1楼 · 发布于 2024-06-25 22:43:52

这是一种使用pipe进行更快推断的尝试

import spacy
from nltk.corpus import stopwords

stopword_list = stopwords.words('dutch') + ['coronavirus','covid','corona']

nlp = spacy.load("nl_core_news_sm")

def lemmatizer(texts):
    texts = [text.replace("\n", "").strip() for text in texts]
    docs = nlp.pipe(texts)
    cleaned_lemmas = [[t.lemma_ for t in doc if t.lemma_ not in stopword_list] for doc in docs]

    return cleaned_lemmas

tweets = [' Wanneer het niet mogelijk is om met de auto naar de teststraat te komen, kun je samen met een telefonisch medewerker de beste optie om je te laten testen bespreken. ^CM', 'De tweede stap in het versoepelen van de coronamaatregelen zetten we vandaag. Alleen als iedereen zich aan de maatregelen houdt, zetten we samen een stap vooruit.\n\nActuele informatie ⤵️\n\n', 'De tweede stap in het versoepelen van de coronamaatregelen zetten we vandaag. \n\nAlleen als iedereen zich aan de maatregelen houdt, zetten we samen een stap vooruit.\n\nActuele informatie ⤵️\n\n\nAlleenSamen ']
cleaned = lemmatizer(tweets)

print(cleaned)

相关问题更多 >

编程相关推荐

热门问题

热门文章