Eliminar palabras vacías en Python

Samyak Jain 10 octubre 2023
  1. Utilice el paquete NLTK para eliminar palabras vacías en Python
  2. Utilice el paquete stop-words para eliminar las palabras de parada en Python
  3. Utilice el método remove_stpwrds en la biblioteca textcleaner para eliminar palabras vacías en Python
Eliminar palabras vacías en Python

Las palabras vacías son las palabras de uso común que generalmente son ignoradas por el motor de búsqueda, como the, a, an, y más. Estas palabras se eliminan para ahorrar espacio en la base de datos y el tiempo de procesamiento. La frase There is a snake in my boot sin palabras vacías será simplemente snake boot.

En este tutorial, discutiremos cómo eliminar palabras vacías en Python.

Utilice el paquete NLTK para eliminar palabras vacías en Python

El paquete nlkt (Natural Language Processing) se puede utilizar para eliminar palabras vacías del texto en Python. Este paquete contiene palabras vacías de muchos idiomas diferentes.

Podemos iterar a través de una lista y verificar si una palabra es una palabra de parada o no usando la lista de esta biblioteca.

Por ejemplo,

import nltk
from nltk.corpus import stopwords

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)

Producción :

['This', 'snake']

El siguiente código mostrará una lista de palabras vacías en Python:

import nltk
from nltk.corpus import stopwords

print(stopwords.words("english"))

Producción :

{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'} 

Utilice el paquete stop-words para eliminar las palabras de parada en Python

El paquete stop-words se utiliza para eliminar palabras vacías del texto en Python. Este paquete contiene palabras vacías de muchos idiomas como inglés, danés, francés, español y más.

Por ejemplo,

from stop_words import get_stop_words

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)

Producción :

['This', 'just', 'snake']

El código anterior filtrará el conjunto de datos eliminando todas las palabras vacías utilizadas en el idioma inglés.

Utilice el método remove_stpwrds en la biblioteca textcleaner para eliminar palabras vacías en Python

El método remove_stpwrds() en la biblioteca textcleaner se utiliza para eliminar palabras vacías del texto en Python.

Por ejemplo,

import textcleaner as tc

dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())

Producción :

This
snake