KoNLPy의 분석기별 사용자 단어를 추가하는 방법을 하나로 정리한 포스팅입니다.
[ Kkma ]
konlpy가 설치되어 있는 폴더로 이동합니다.
일반적으로 C:/Users/%USERNAME/AppData/Roaming/Python/Python(user_version)/site-packages/konlpy/java
kkma-2.0.jar 파일 압축을 해제합니다.
압축 해제 후 생성된 kkma-2.0/dic 폴더로 이동 후, 추가하려는 단어의 품사 파일(.dic)을 메모장으로 열어 수정합니다.
- 저장 후에는 반드시 dic의 상위 폴더인 kkma-2.0 폴더로 이동 후, cmd창에서 jar cvf 압축파일명.jar ./를 실행해 압축합니다.
1 2 3 4
jar 옵션 - c : 새로운 jar 패키지 파일 생성 - v : 압축/해제 수행 관련 메세지 출력(생략 가능) - f : jar 파일명 지정
압축이 끝나면 kkma-2.0 폴더에 생성된 jar 파일을 kkma-2.0의 상위 폴더인 ~konlpy/java 폴더에 붙여넣고, 기존에 있던 kkma-2.0.jar 파일과 폴더를 삭제합니다.
- 조금 전 붙여넣은 jar 파일명을 kkma-2.0.jar로 변경한 후 konlpy 패키지를 불러오면 추가한 단어가 반영된 것을 확인할 수 있습니다.
- 간혹 새로 추가한 단어가 바로 반영되지 않는 경우가 있는 것 같습니다. 컴퓨터를 재부팅한 후 실행해보세요 :)
[ Komoran ]
komoran의 단어 추가 방식은 비교적 간단합니다.
아무 폴더에 txt 파일을 생성하여 사용자 사전을 만든 후 저장합니다.
이 때 단어와 품사 사이는 \t으로 분리합니다.
이후 komoran을 불러올 때 괄호에 아래와 같이 사전 경로를 지정하면 추가한 단어가 바로 적용되는 것을 확인할 수 있습니다.
Komoran(userdic="사전경로.txt")
[ Hannanum ]
- 한나눔의 사전 경로는 kkma, okt와 살짝 다릅니다. C:/Users/%USERNAME/AppData/Roaming/Python/Python(user_version)/site-packages/konlpy/java에서 data -> kE 폴더로 이동합니다.
- dic_user.txt를 메모장으로 열어 추가하고 싶은 단어를 추가합니다. komoran과 마찬가지로, 단어와 품사 사이는 \t으로 분리합니다.
- 파일 저장 후 별도의 작업없이 적용하여 사용할 수 있습니다.
- 참고자료) 한나눔 한국어 형태소 분석기 사용자 매뉴얼
[ Okt ]
okt의 단어 추가 방식은 kkma와 동일합니다.
konlpy 설치 경로로 이동합니다.
C:/Users/%USERNAME/AppData/Roaming/Python/Python(user_version)/site-packages/konlpy/javaopen-korean-text-2.1.0.jar 파일의 압축을 해제합니다.
압축 해제 후 생성된 폴더에서 아래 경로로 이동합니다.
원하는 파일을 열어 단어를 추가합니다. 품사별로 폴더, 파일이 분리되어 있으므로 품사를 지정할 필요는 없습니다.
kkma와 마찬가지로, 상위 폴더인 open-korean-text-2.1.0 폴더로 이동 후, cmd창에서 jar cvf 압축파일명.jar ./를 실행해 압축합니다.
압축이 끝나면 open-korean-text-2.1.0 폴더에 생성된 jar 파일을 ~konlpy/java 폴더에 붙여넣고, 기존에 있던 open-korean-text-2.1.0 jar 파일과 폴더를 삭제합니다.
조금 전 붙여넣은 jar 파일명을 open-korean-text-2.1.0.jar로 변경한 후 konlpy 패키지를 불러오면 추가한 단어가 반영된 것을 확인할 수 있습니다.
- 참고자료) Okt 빌드를 통한 사전 추가
Comments powered by Disqus.