- 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
- Maven:
<dependencies> <dependency> <groupId>org.bitbucket.eunjeon</groupId> <artifactId>seunjeon_2.11</artifactId> <version>0.6.0</version> </dependency> </dependencies>
새로운 기능
- Term.posid 추가. 품사를 int 값으로 확인이 가능합니다. pos-id.def 값으로 접근.
- dicrc:left-space-penalty-factor 적용. 특정 형태소에 한해 띄어쓰기가 되었을 경우 cost penalty를 적용. 특정 경우 오분석을 줄여줍니다.
- space 형태소를 더이상 뽑지 않습니다. 공백이 있는지는 전후 형태소의 offset값(TermNode.startPos/endPos)으로 확인가능