728x90
반응형
단어 토큰화를 하면서 단어 분리를 해야 하는 경우가 많다.
또한 복합어가 있어서 분류가 되어야 하는데 어려운 점이 있다.
영어 단어를 분리할 때 사용한다.
만약 smartwatch라는 단어가 있다고 했을 때 단어를 smart watch 이렇게 분리해야 하는 경우가 있다.
라이브러리를 보면 패턴을 통해서 분류 하고 있다.
사용한 라이브러리는 hyphyphenate
작성기준으로 1.1.0 버전이며 최근 릴리즈된 날짜는 2016.12.21.
1. 라이브러리 설치
pip install hyphenate
2. 사용 방법
from hyphenate import hyphenate_word
print( hyphenate_word("smartwatch"))
사용 방법은 간단하다. 라이브러리 임포트 후 실행 끝.
결과는 ['smart', 'watch'] 분류가 된다.
참고로 패턴으로 분류를 하다 보니 korea 같은 경우 ['ko', 'rea']로 분리가 된다.
- 라이브러리 정보 페이지 : pypi.org/project/hyphenate/
- github주소 :github.com/jfinkels/hyphenate
728x90
반응형
'Dev > Python' 카테고리의 다른 글
python-웹크롤링(feat. BeautifulSoup)(한글깨짐 처리) (0) | 2020.10.22 |
---|---|
Python-library [ wordninja ] / 단어분리(영어) (0) | 2020.09.17 |
Python-library[word2word]-단어번역 (0) | 2020.09.16 |
Python 2차원 배열 (0) | 2020.09.04 |
Python 엑셀파일 다루기(Feat.openpyxl & xlrd) (0) | 2020.09.04 |