파이썬에서 문장을 단어로 나누기

Muhammad Maisam Abbas 2023년1월30일
  1. Python의 str.split() 함수를 사용하여 문장을 단어로 분할
  2. Python에서 목록 이해를 사용하여 문장을 단어로 분할
  3. Python의 nltk 라이브러리를 사용하여 문장을 단어로 분할
파이썬에서 문장을 단어로 나누기

이 튜토리얼에서는 파이썬에서 문장을 단어 목록으로 분할하는 방법에 대해 설명합니다.

Python의 str.split() 함수를 사용하여 문장을 단어로 분할

Python의 str.split() 함수는 구분 기호를 입력 매개 변수로 사용하고 구분 기호를 기반으로 호출 문자열을 여러 문자열로 분할합니다. 구분 기호를 지정하지 않으면 str.split() 함수는 빈 공간을 기준으로 문자열을 분할합니다. 다음 코드 스니펫은 str.split() 함수를 사용하여 문장을 단어 목록으로 분할하는 방법을 보여줍니다.

sentence = "This is a sentence"
words = sentence.split()
print(words)

출력:

['This', 'is', 'a', 'sentence']

일부 데이터를 포함하는 문자열 변수 sentence를 선언했습니다. 그런 다음 sentence 변수를 sentence.split() 함수를 사용하여 문자열 목록으로 분할하고 결과를 words 목록에 저장했습니다. str.split() 함수는 파이썬에서 문장을 단어 목록으로 변환하는 가장 쉬운 방법입니다.

Python에서 목록 이해를 사용하여 문장을 단어로 분할

목록 이해를 사용하여 문장을 단어 목록으로 분할할 수도 있습니다. 그러나 이 접근 방식은 str.split() 함수만큼 간단하지 않습니다. 목록 이해를 사용하는 이점은 얻은 단어에 대해 일부 작업을 수행할 수도 있다는 것입니다. 작업 범위는 각 단어에 무언가를 추가하거나 각 단어에서 무언가를 제거하는 것입니다. 다음 코드 조각은 목록 이해와 str.split() 함수를 사용하여 문장을 단어로 분할하는 방법을 보여줍니다.

sentence = "This is a sentence"
words = [word for word in sentence.split()]
print(words)

출력:

['This', 'is', 'a', 'sentence']

일부 데이터를 포함하는 문자열 변수 sentence를 선언했습니다. 그런 다음 sentence 변수를 목록 이해가 있는 문자열 목록으로 분할하고 결과를 words 목록에 저장했습니다. 이 방법은 단어 목록에 단어를 저장하기 전에 얻은 각 단어를 수정하는 데 유용합니다.

Python의 nltk 라이브러리를 사용하여 문장을 단어로 분할

nltk 또는 자연어 툴킷 라이브러리는 Python에서 텍스트 처리에 사용됩니다. 외부 라이브러리이기 때문에 사용하기 전에 설치해야 합니다. 자연어 툴킷을 설치하는 명령어는 아래와 같다.

pip install nltk

설치가 완료되면 nltk.download() 기능을 사용하여 punkt 패키지를 다운로드해야 합니다. 이 현상은 다음 코드 조각에 설명되어 있습니다.

import nltk

nltk.download("punkt")

출력:

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.

nltk 라이브러리 내부의 word_tokenize() 함수를 사용하여 특정 문제를 해결할 수 있습니다. 이 함수는 문자열을 입력 매개변수로 받아 여러 하위 문자열로 분할합니다. 다음 코드 스니펫은 nltk.word_tokenize() 함수를 사용하여 문장을 단어 목록으로 분할하는 방법을 보여줍니다.

sentence = "This is a sentence"
words = nltk.word_tokenize(sentence)
print(words)

출력:

['This', 'is', 'a', 'sentence']

sentence 문자열을 nltk.word_tokenize(sentence) 함수를 사용하여 단어 목록으로 분할하고 결과를 words 목록에 저장했습니다. 결국 단어 목록 안에 요소를 표시했습니다.

str.split() 메소드는 이 특정 문제를 해결하는 가장 간단한 방법이지만 일단 단어 목록이 있으면 split() 함수로 할 수 있는 일은 많지 않습니다. 다른 두 가지 방법은 얻은 단어에 대해 추가 조작을 수행하려는 경우에 유용합니다.

Muhammad Maisam Abbas avatar Muhammad Maisam Abbas avatar

Maisam is a highly skilled and motivated Data Scientist. He has over 4 years of experience with Python programming language. He loves solving complex problems and sharing his results on the internet.

LinkedIn

관련 문장 - Python String