2013년 8월 26일 월요일

mecab-ko-dic-1.4.2-20130826 배포합니다.

mecab-ko-dic-1.4.2-20130826이 나왔습니다.
  • 잘못된 기분석 단어를 복합명사 사전으로 옮기거나 출현 비용 수정으로 대체
  • '빛나라'가 '빛/NN+나라/NN'로 오분석 되는 것을 막기 위해 '빛나/VV' 출현 비용 낮춤
여기서 받으실 수 있습니다.

이번 1.4.1, 1.4.2 버전의 릴리스에서 실수가 잦았네요. 기존의 1.4.1, 1.4.2 버전은 사전 형식의 오류로 인해 mecab-ko-lucene-analyzer에서 문제가 있을 수 있으니 사용하시는 분들은 이 버전을 다시 받으시기 바랍니다.

mecab-ko-dic-1.4.2-20130825 배포합니다.

mecab-ko-dic-1.4.2-20130825이 나왔습니다.
  • 단어 끝에 숫자가 붙은 잘못된 의존명사(NNB) 제거
  • 한글로 이루어진 모르는 단어에 대해 'NN'에서 'UNKNOWN'으로 표기하는 것으로 변경
  • '저거나'가 '저/VV+거나/EC'로 오분석되는 것을 막기 위해 '저거'(저것/NP+이/VCP)의 단어 출현 비용 낮춤
여기서 받으실 수 있습니다.

2013년 8월 23일 금요일

mecab-ko-dic-1.4.1-20130823 배포합니다.

mecab-ko-dic-1.4.1-20130823이 나왔습니다.
  • 의존 명사(NNB)에 관한 분석 규칙 변경
  • 접두어 '명'('이름난', '뛰어난'의 뜻을 가지는) 추가
  • 몇몇 단어와 기분석 사전 추가
여기서 받으실 수 있습니다.

2013년 8월 7일 수요일

ElasticSearch 플러그인을 만드는 중입니다.

mecab-ko-lucene-analyzerElasticSearch 플러그인을 만드는 중입니다. mecab-ko-lucene-analyer의 dev-elasticsearch-analyzer 브랜치로 작업 중이며, 아직 정식으로 릴리스할 정도는 아니라고 판단되어, 베타 테스트로 설치할 수 있는 방법을 공유합니다.

아래의 링크에서 자세한 설치와 사용 방법을 보실 수 있습니다.
https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer/raw/master/elasticsearch-analysis-mecab-ko/
현재는 tokenizer만 구현되어 있는 상태고, 제가 ElasticSearch에 경험이 없어서, 어떤 부분을 더 구현해야 할지 잘 모르는 상태입니다. 혹시 ElasticSearch를 사용하시는 분들은 테스트해 보시고, 버그나 더 구현해야 할 부분과 같은 간단한 피드백을 주시면 매우 감사하겠습니다.

elasticsearch-0.90.2 기반으로 컴파일 했으며, elasticsearch-0.90.3에서 정상적으로 동작하는 것을 테스트 완료하였습니다.