2015년 12월 20일 일요일

mecab-ko-lucene-analyzer-0.18.0, elasticsesarch-analysis-mecab-ko-2.1.0.0 배포합니다.

mecab-ko-lucene-analyzer-0.18.0, elasticsesarch-analysis-mecab-ko-2.1.0.0이 나왔습니다.

새로운 기능
  • Lucene/Solr 5.3.1, Elasticsearch 2.1에 맞추어 코드 및 문서 수정
주의: Lucene/Solr 5.3.1, Elasticsearch 2.1에서 사용법에 많은 변화가 있습니다. 문서를 확인하시기 바랍니다.

Lucene/Solr 용 분석기
Elasticsearch 용 분석기

2015년 11월 15일 일요일

seunjeon 0.6.0 배포합니다.

조금 더 미루고 릴리즈 하려다가 mecab에서 되는 기능이 안되고 있던 것이라 빠르게 릴리즈합니다.

  • 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
  • Maven:
    • <dependencies>
          <dependency>
              <groupId>org.bitbucket.eunjeon</groupId>
              <artifactId>seunjeon_2.11</artifactId>
              <version>0.6.0</version>
          </dependency>
      </dependencies>
새로운 기능
  • Term.posid 추가. 품사를 int 값으로 확인이 가능합니다. pos-id.def 값으로 접근.
  • dicrc:left-space-penalty-factor 적용. 특정 형태소에 한해 띄어쓰기가 되었을 경우 cost penalty를 적용. 특정 경우 오분석을 줄여줍니다.
  • space 형태소를 더이상 뽑지 않습니다. 공백이 있는지는 전후 형태소의 offset값(TermNode.startPos/endPos)으로 확인가능

2015년 11월 1일 일요일

seunjeon 0.5.0 배포합니다.

오랜만에 릴리즈합니다. 개인적으로 시간이 없어서 작업을 미루고 있었습니다. 많이들 사용해주시고 적극 피드백 부탁드립니다~ 기능 추가시 도움이 됩니다. ^^
  • 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
  • Maven:
    • <dependencies>
          <dependency>
              <groupId>org.bitbucket.eunjeon</groupId>
              <artifactId>seunjeon_2.11</artifactId>
              <version>0.5.0</version>
          </dependency>
      </dependencies>

새로운 기능
  • charset 혼합 단어. 사전 추가 가능
    • 예) 삼성SDS
  • space가 포함된 단어. 사전 추가 가능
    • 예) LG CNS
기타
  • 약간의 성능 향상.(category.invoke 기능 제거)

2015년 10월 1일 목요일

seunjeon 0.4.0 배포합니다.

기능이 추가되어 배포합니다. interface가 조금 바뀌었습니다. offset 기능을 추가하여 Term 아닌 TermNode를 반환하도록 하였습니다. space 도 형태소에 뽑히게 바꾸었습니다. 분석 품질에 영향을 주는 부분인데, 더 좋은지 더 나쁜지는 더 지켜봐야 할 것 같습니다.
새로운 기능
  • line단위 term offset 기능 추가.
    • TermNode.startPos
  • space도 term으로 뽑히도록 수정.

2015년 9월 20일 일요일

mecab-ko-dic-2.0.1-20150920 배포합니다.

mecab-ko-dic-2.0.1-20150920 나왔습니다.

사전
  • '주의'로 끝나는 단어 (ex: 민주주의, 자연주의) 오분석 방지를 위해 출현 비용 낮춤
오류 수정
  • '주의'로 끝나는 단어 (ex: 민주주의, 자연주의) NNG로 변경하고, 사전 오류 수정
여기에서 받으실 수 있습니다.

2015년 9월 13일 일요일

seunjeon 0.3.0 배포합니다.

새로운 버전 배포합니다. 사용사 사전을 정의할 수 있게 하였습니다.
정의 방법은 저장소에서 README 를 참고해주세요.
새로운 기능
  • 사용사 사전을 정의할 수 있게 기능 추가. 비용 조정 가능
    • 일괄 일반명사(NNG)로 등록. default 비용은 1000-(surface.length*100)
기타
  • guava library 의존성 제거

2015년 9월 6일 일요일

seunjeon 0.2.1 배포합니다.

비용 계산하는 곳에 나름 심각한 버그가 있었습니다. 연접비용를 잘못 계산하는 바람에 오분석이 되는 경우가 있었습니다. 기존 버전을 사용하고 계신분들은 꼭 패치 하시기 바랍니다.
해당 버그는 김선겸님께서 고쳐주셨습니다. 김선겸님께 무한한 감사 드립니다. :)
오류수정
  • 연접비용(connectionCostDict) 사전 위치 포인팅 버그 수정