Supprimer les mots vides en Python
-
Utilisez le package
NLTKpour supprimer les mots vides en Python -
Utilisez le package
stop_wordspour supprimer les mots vides en Python -
Utilisez la méthode
remove_stpwrdsdans la bibliothèquetextcleanerpour supprimer les mots vides en Python
Les mots vides sont les mots couramment utilisés qui sont généralement ignorés par le moteur de recherche, tels que the, a, an, etc. Ces mots sont supprimés pour économiser de l’espace dans la base de données et le temps de traitement. La phrase There is a snake in my boot sans mots vides sera simplement snake boot.
Dans ce tutoriel, nous verrons comment supprimer les mots vides en Python.
Utilisez le package NLTK pour supprimer les mots vides en Python
Le package nlkt (Natural Language Processing) peut être utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides de plusieurs langues différentes.
Nous pouvons parcourir une liste et vérifier si un mot est un mot vide ou n’utilise pas la liste de cette bibliothèque.
Par exemple,
import nltk
from nltk.corpus import stopwords
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)
Production:
['This', 'snake']
Le code suivant affichera une liste de mots vides en Python :
import nltk
from nltk.corpus import stopwords
print(stopwords.words("english"))
Production:
{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'}
Utilisez le package stop_words pour supprimer les mots vides en Python
Le package stop-words est utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides dans de nombreuses langues comme l’anglais, le danois, le français, l’espagnol et plus encore.
Par exemple,
from stop_words import get_stop_words
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)
Production:
['This', 'just', 'snake']
Le code ci-dessus filtrera l’ensemble de données en supprimant tous les mots vides utilisés dans la langue anglaise.
Utilisez la méthode remove_stpwrds dans la bibliothèque textcleaner pour supprimer les mots vides en Python
La méthode remove_stpwrds() de la bibliothèque textcleaner est utilisée pour supprimer les mots vides du texte en Python.
Par exemple,
import textcleaner as tc
dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())
Production:
This
snake