은전한닢 프로젝트: 5월 2015

2015년 5월 17일 일요일

mecab-ko-lucene-analyzer-0.17.0 배포합니다.

mecab-ko-lucene-analyzer-0.17.0이 나왔습니다.

새로운 기능

mecab-ko-dic-2.0.0 의 변경된 사전 포멧에 따른 변경.
동사와 형용사 원형을 사용하여 검색할 수 있는 기능 추가
StandardIndexTokenizerFactory, StandardQueryTokenizerFactory 제거하고 StandardTokenizerFactory로 합침
Tokenizer 실행 옵션 변경 (Solr, ElasticSearch 모두)

mecabDicDir -> mecabArgs로 변경하면서 사전 경로가 아니라, mecab 옵션을 지정하도록 수정
useAdjectiveAndVerbOriginForm 동사와 형용사 원형을 사용하여 검색할지 여부

복합명사 분해 로직 변경
체언 접두사 처리 로직 변경

주의: mecab-ko-dic-2.0.0에 적용하여 사용되어야 합니다.

tokenizer의 클래스 이름과 사용방식이 변경되었습니다. 설치방법 문서를 참고하여, 사용해 착오 없으시기 바랍니다.

Lucene/Solr 용 분석기

Elasticsearch 용 분석기

mecab-ko-dic-2.0.0-20150517 배포합니다.

mecab-ko-dic-2.0.0-20150517가 나왔습니다.

새로운 기능

체언 POS ID 세분화

기존: NNG|NNP|NNB|NNBC|NR|NP->150
변경: NNG->150, NNP->151, NNB->152, NNBC->153, NR->154, NP->155

UNKNOWN POS ID 0에서 999로 변경

사전

사전 포맷(csv) 형식 변경 (원형과 인덱싱 표현 필드 통합) -표층형,0,0,0,품사 태그,의미 부류,종성 유무,읽기,타입,첫번째 품사,마지막 품사,표현

표현 필드의 형식: 표층형/품사태그/의미부류+...

우리나라 지하철역명 사전 추가
몇몇 단어 추가

오류 수정

단위를 나타내는 의존 명사를 다른 의존 명사로 학습한 오류 수정

여기에서 받으실 수 있습니다.

주의: 사전 형식의 변경으로, mecab-ko-lucene-analyzer도 0.17.0으로 버전 업그레이드가 필요합니다.

피드 구독하기: 글 (Atom)