본문 바로가기

Dev/Python

Python-library [ wordninja ] / 단어분리(영어)

728x90
반응형

앞서 compound word 분리 방법인 hyphenate 라이브러리를 작성했었다.

 

비슷하지만 다른 라이브러리라 정리합니다.

 

간단히 설명하면 hyphenate는

 

wordninja는 작성기준으로 2.0.0이며 릴리즈일은 2019.08.10 임.

 

1. 설치 

pip install wordninja

2. 사용방법

import wordninja

wordninja.split('smartwatch')

 

간단한 샘플로 smartwatch를 검색했을 때 결괏값은 ['smart', 'watch']로 분리가 된다.

 

상세히 보면 단어 형태로 사전이 정의되어 있어서 단어를 추가하여 커스텀 화가 가능하다.

 

기본 세팅 값에서 korea를 검색 시 hyphenate에서는 kor, ea로 구분되는 반해 wordninja는 korea로 분리되지 않는다.

 

결과 값에 따라 사용하면 될 듯합니다.

 

github 주소 : github.com/keredson/wordninja

 

keredson/wordninja

Probabilistically split concatenated words using NLP based on English Wikipedia unigram frequencies. - keredson/wordninja

github.com

 

pypi를 가보면 딱히 설명이 없다.

라이브러리 정보 : pypi.org/project/wordninja/

 

wordninja

Probabilistically split concatenated words using NLP based on English Wikipedia uni-gram frequencies.

pypi.org

 

728x90
반응형