본문 바로가기

Dev/Python

Python-library [ hyphenate] / 단어분리(영어)

728x90
반응형

단어 토큰화를 하면서 단어 분리를 해야 하는 경우가 많다.

또한 복합어가 있어서 분류가 되어야 하는데 어려운 점이 있다.

 

영어 단어를 분리할 때 사용한다.

만약 smartwatch라는 단어가  있다고 했을 때 단어를 smart watch 이렇게 분리해야 하는 경우가 있다.

 

라이브러리를 보면 패턴을 통해서 분류 하고 있다.

 

사용한 라이브러리는 hyphyphenate 

작성기준으로 1.1.0 버전이며 최근 릴리즈된 날짜는 2016.12.21.

 

1. 라이브러리 설치

pip install hyphenate

2. 사용 방법

from hyphenate import hyphenate_word

print( hyphenate_word("smartwatch"))

사용 방법은 간단하다. 라이브러리 임포트 후 실행 끝.

결과는 ['smart', 'watch'] 분류가 된다.

 

참고로 패턴으로 분류를 하다 보니 korea 같은 경우 ['ko', 'rea']로 분리가 된다.

 

- 라이브러리 정보 페이지 : pypi.org/project/hyphenate/

 

hyphenate

Determine hyphenation breaks in English words

pypi.org

- github주소 :github.com/jfinkels/hyphenate

 

jfinkels/hyphenate

Hyphenation of English words. Contribute to jfinkels/hyphenate development by creating an account on GitHub.

github.com

 

728x90
반응형