2014년 3월 17일 월요일

mecab-ko-dic-1.5.0-20140317 배포합니다.

mecab-ko-dic-1.5.0-20140317이 나왔습니다.

변경된 점은 다음과 같습니다.
  • Inflect 사전의 end_pos 오류 수정.
  • 몇몇 사전 추가 및 오류 수정

여기에서 받으실 수 있습니다.

2014년 3월 12일 수요일

mecab-ko-0.9.1 배포합니다.

mecab-ko-0.9.1 배포합니다.

mecab에 새로운 사전 추가시 자동 좌/우문맥ID 찾기와 자동 비용 계산이 안되는 버그가 있었습니다.(에러 발생)
그래서 수동으로만 사전 추가가 가능했었습니다.

버그 수정으로 새로운 단어 추가시 좌/우문맥ID와 비용을 수동으로 넣어줄 필요가 없습니다.

다운로드
https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.1.tar.gz

설치방법
mecab-ko 에서 확인하세요.

※ 새로운 사전 추가 방법은 여기를 참고하세요.

새로운 사전 추가 방법

사전 추가는 mecab-0.996-ko-0.9.1 이상에서 동작합니다. 사전 형식은 mecab-ko-dic-1.6 을 따르고 있습니다.

새로운 사전 추가
1. 특정위치에 user_in.csv 파일 생성. 두번째, 세번째,네번째 필드는 빈값으로 둡니다. 일반적으로 고유명사 추가는 품사를 NNP로 하고 의미부류를 사람이름일 경우 "인명" 또는 지명일 경우 "지명" 모두 아닐 경우에는 "*"로 합니다.
  품사와 사전형식은 여기를 참고하세요.(시트를 확인하세요.)
아주대,,,,NNP,*,F,아주대,*,*,*,*,*  
 2. 좌/우문맥ID와 비용생성
$ /usr/local/libexec/mecab/mecab-dict-index \
-m <dic-path>/model.def \
-d <dic-path> \
-u <dic-path>/user.csv \
-f utf-8 \
-t utf-8 \
-a user_in.csv
  • <dic-path>: 다운로드 받은 mecab-ko-dic 디렉토리 위치
  • -m FILE: 모델파일
  • -d DIR : 시스템 사전이있는 디렉토리
  • -u FILE : output FILE
  • -f charset : input 사전파일 문자 코드
  • -t charset : output 사전파일 문자 코드

3. 새로 생성된 <dic_path>/user.csv 확인. 좌/우문맥ID와 비용이 자동 생성되었습니다.
아주대,1092,1681,2528,NNP,*,F,아주대,*,*,*,*,*
4. 사전 컴파일
$ cd <dic_path>
$ make clean;make
그 외 다양한 방법에 대해서는 mecab홈페이지를 참고하세요.