Python에서 중지 단어 제거

Samyak Jain 2023년10월10일
  1. NLTK 패키지를 사용하여 Python에서 중지 단어 제거
  2. stop-words 패키지를 사용하여 Python에서 중지 단어 제거
  3. textcleaner 라이브러리의 remove_stpwrds 메서드를 사용하여 Python에서 중지 단어 제거
Python에서 중지 단어 제거

중지 단어는 the, a, an 등과 같이 일반적으로 검색 엔진에서 무시되는 일반적으로 사용되는 단어입니다. 이러한 단어는 데이터베이스의 공간과 처리 시간을 절약하기 위해 제거됩니다. There is a snake in my boot라는 문장이 중단어 없이는 그냥 snake boot가 됩니다.

이 자습서에서는 Python에서 중지 단어를 제거하는 방법에 대해 설명합니다.

NLTK 패키지를 사용하여 Python에서 중지 단어 제거

nlkt(자연어 처리) 패키지는 Python의 텍스트에서 중지 단어를 제거하는 데 사용할 수 있습니다. 이 패키지에는 다양한 언어의 불용어가 포함되어 있습니다.

목록을 반복하고 이 라이브러리의 목록을 사용하지 않는 단어가 중지 단어인지 확인할 수 있습니다.

예를 들어,

import nltk
from nltk.corpus import stopwords

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)

출력:

['This', 'snake']

다음 코드는 Python에서 중지 단어 목록을 표시합니다.

import nltk
from nltk.corpus import stopwords

print(stopwords.words("english"))

출력:

{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'} 

stop-words 패키지를 사용하여 Python에서 중지 단어 제거

stop-words 패키지는 Python의 텍스트에서 중지 단어를 제거하는 데 사용됩니다. 이 패키지에는 영어, 덴마크어, 프랑스어, 스페인어 등과 같은 여러 언어의 불용어가 포함되어 있습니다.

예를 들어,

from stop_words import get_stop_words

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)

출력:

['This', 'just', 'snake']

위의 코드는 영어에서 사용되는 모든 불용어를 제거하여 데이터 세트를 필터링합니다.

textcleaner 라이브러리의 remove_stpwrds 메서드를 사용하여 Python에서 중지 단어 제거

textcleaner 라이브러리의 remove_stpwrds() 메서드는 Python의 텍스트에서 중지 단어를 제거하는 데 사용됩니다.

예를 들어,

import textcleaner as tc

dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())

출력:

This
snake