2015년 5월 17일 일요일

mecab-ko-lucene-analyzer-0.17.0 배포합니다.

mecab-ko-lucene-analyzer-0.17.0이 나왔습니다.

새로운 기능

  • mecab-ko-dic-2.0.0 의 변경된 사전 포멧에 따른 변경.
  • 동사와 형용사 원형을 사용하여 검색할 수 있는 기능 추가
  • StandardIndexTokenizerFactory, StandardQueryTokenizerFactory 제거하고 StandardTokenizerFactory로 합침
  • Tokenizer 실행 옵션 변경 (Solr, ElasticSearch 모두)
    • mecabDicDir -> mecabArgs로 변경하면서 사전 경로가 아니라, mecab 옵션을 지정하도록 수정
    • useAdjectiveAndVerbOriginForm 동사와 형용사 원형을 사용하여 검색할지 여부
  • 복합명사 분해 로직 변경
  • 체언 접두사 처리 로직 변경
주의: mecab-ko-dic-2.0.0에 적용하여 사용되어야 합니다.
tokenizer의 클래스 이름과 사용방식이 변경되었습니다. 설치방법 문서를 참고하여, 사용해 착오 없으시기 바랍니다.

Lucene/Solr 용 분석기
Elasticsearch 용 분석기

mecab-ko-dic-2.0.0-20150517 배포합니다.

mecab-ko-dic-2.0.0-20150517가 나왔습니다.

새로운 기능
  • 체언 POS ID 세분화
    • 기존: NNG|NNP|NNB|NNBC|NR|NP->150
    • 변경: NNG->150, NNP->151, NNB->152, NNBC->153, NR->154, NP->155
  • UNKNOWN POS ID 0에서 999로 변경
사전
  • 사전 포맷(csv) 형식 변경 (원형과 인덱싱 표현 필드 통합) -표층형,0,0,0,품사 태그,의미 부류,종성 유무,읽기,타입,첫번째 품사,마지막 품사,표현
    • 표현 필드의 형식: 표층형/품사태그/의미부류+...
  • 우리나라 지하철역명 사전 추가
  • 몇몇 단어 추가
오류 수정
  • 단위를 나타내는 의존 명사를 다른 의존 명사로 학습한 오류 수정

여기에서 받으실 수 있습니다.

주의: 사전 형식의 변경으로, mecab-ko-lucene-analyzer도 0.17.0으로 버전 업그레이드가 필요합니다.