새로운 기능
- 체언 POS ID 세분화
- 기존: NNG|NNP|NNB|NNBC|NR|NP->150
- 변경: NNG->150, NNP->151, NNB->152, NNBC->153, NR->154, NP->155
- UNKNOWN POS ID 0에서 999로 변경
- 사전 포맷(csv) 형식 변경 (원형과 인덱싱 표현 필드 통합) -표층형,0,0,0,품사 태그,의미 부류,종성 유무,읽기,타입,첫번째 품사,마지막 품사,표현
- 표현 필드의 형식: 표층형/품사태그/의미부류+...
- 우리나라 지하철역명 사전 추가
- 몇몇 단어 추가
- 단위를 나타내는 의존 명사를 다른 의존 명사로 학습한 오류 수정
여기에서 받으실 수 있습니다.
주의: 사전 형식의 변경으로, mecab-ko-lucene-analyzer도 0.17.0으로 버전 업그레이드가 필요합니다.
댓글 없음:
댓글 쓰기