2018년 7월 21일 토요일

mecab-ko-dic-2.1.1-20180720 배포합니다.

mecab-ko-dic-2.1.1-20180720 나왔습니다.

오류 수정
  • NNG/장소의 출현 비용이 비정상적으로 높았던 문제(학습 데이터) 수정 후 재학습
사전
  • 오피스/NNG/장소 추가
여기에서 받으실 수 있습니다.

2018년 7월 17일 화요일

mecab-ko-dic-2.1.0-20180716 배포합니다.

mecab-ko-dic-2.1.0-20180716 나왔습니다.

새로운 기능
  • 오분석을 줄이기 위해 NNG(보통 명사) 의미 부류 '장소', '행위', '상태변화', '정적사태'를 추가하고 재학습
    • NNG(보통 명사)와 XSV(동사 파생 접미사), XSA(형용사 파생 접미사)와의 과도한 연결이 줄어들 것으로 기대
사전
  • 의미 부류에 '/'가 들어가 있는 경우 '|' 문자로 대체. ex: '성분부사/양태부사' -> '성분부사|양태부사'
  • 그 밖에 자잘한 사전 오류 수정
여기에서 받으실 수 있습니다.

2018년 2월 10일 토요일

seunjeon-1.5.0/elasticsearch-analysis-seunjeon 6.1.1.1 배포합니다.

vengadan 의 contribution 으로 사전 압축 기능이 추가되었습니다. 낮은 성능의 인스턴스에서 실행시킬 수 있기를 기대합니다. 
그리고 line feed 단위로 분석을 수행하여 문서 크기가 크더라도 메모리 사용을 최소화합니다.
전체적으로 heap 메모리 사용에 신경을 썼습니다.
앞으로도 고민할만한 곳이 많이 있는 것 같으나.. 시간이 부족하여 이후에 시간날 때 천천히 진행해보겠습니다.

메뉴얼:
* elasticsearch plugin
* seunjeon