사전 추가는
mecab-0.996-ko-0.9.1 이상에서 동작합니다. 사전 형식은 mecab-ko-dic-1.6 을 따르고 있습니다.
새로운 사전 추가
1. 특정위치에 user_in.csv 파일 생성. 두번째, 세번째,네번째 필드는 빈값으로 둡니다. 일반적으로 고유명사 추가는 품사를 NNP로 하고 의미부류를 사람이름일 경우 "인명" 또는 지명일 경우 "지명" 모두 아닐 경우에는 "*"로 합니다.
품사와 사전형식은
여기를 참고하세요.(시트를 확인하세요.)
아주대,,,,NNP,*,F,아주대,*,*,*,*,*
2. 좌/우문맥ID와 비용생성
$ /usr/local/libexec/mecab/mecab-dict-index \
-m <dic-path>/model.def \
-d <dic-path> \
-u <dic-path>/user.csv \
-f utf-8 \
-t utf-8 \
-a user_in.csv
- <dic-path>: 다운로드 받은 mecab-ko-dic 디렉토리 위치
- -m FILE: 모델파일
- -d DIR : 시스템 사전이있는 디렉토리
- -u FILE : output FILE
- -f charset : input 사전파일 문자 코드
- -t charset : output 사전파일 문자 코드
3. 새로 생성된 <dic_path>/user.csv 확인. 좌/우문맥ID와 비용이 자동 생성되었습니다.
아주대,1092,1681,2528,NNP,*,F,아주대,*,*,*,*,*
4. 사전 컴파일
$ cd <dic_path>
$ make clean;make
그 외 다양한 방법에 대해서는
mecab홈페이지를 참고하세요.