2015년 11월 15일 일요일

seunjeon 0.6.0 배포합니다.

조금 더 미루고 릴리즈 하려다가 mecab에서 되는 기능이 안되고 있던 것이라 빠르게 릴리즈합니다.

  • 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
  • Maven:
    • <dependencies>
          <dependency>
              <groupId>org.bitbucket.eunjeon</groupId>
              <artifactId>seunjeon_2.11</artifactId>
              <version>0.6.0</version>
          </dependency>
      </dependencies>
새로운 기능
  • Term.posid 추가. 품사를 int 값으로 확인이 가능합니다. pos-id.def 값으로 접근.
  • dicrc:left-space-penalty-factor 적용. 특정 형태소에 한해 띄어쓰기가 되었을 경우 cost penalty를 적용. 특정 경우 오분석을 줄여줍니다.
  • space 형태소를 더이상 뽑지 않습니다. 공백이 있는지는 전후 형태소의 offset값(TermNode.startPos/endPos)으로 확인가능

2015년 11월 1일 일요일

seunjeon 0.5.0 배포합니다.

오랜만에 릴리즈합니다. 개인적으로 시간이 없어서 작업을 미루고 있었습니다. 많이들 사용해주시고 적극 피드백 부탁드립니다~ 기능 추가시 도움이 됩니다. ^^
  • 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
  • Maven:
    • <dependencies>
          <dependency>
              <groupId>org.bitbucket.eunjeon</groupId>
              <artifactId>seunjeon_2.11</artifactId>
              <version>0.5.0</version>
          </dependency>
      </dependencies>

새로운 기능
  • charset 혼합 단어. 사전 추가 가능
    • 예) 삼성SDS
  • space가 포함된 단어. 사전 추가 가능
    • 예) LG CNS
기타
  • 약간의 성능 향상.(category.invoke 기능 제거)