많은 부분 변경되었습니다. 클래스명도 바뀌고 멤버변수들도 많이 바뀌었습니다. 업그레이드 하시는분은 조금 신경을 써야할 것 같습니다.
* 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
Maven
<dependencies>
<dependency>
<groupId>org.bitbucket.eunjeon</groupId>
<artifactId>seunjeon_2.11</artifactId>
<version>1.0.0</version>
</dependency>
</dependencies>
사용
scala
import org.bitbucket.eunjeon.seunjeon.Analyzer
// 형태소 분석
Analyzer.parse("아버지가방에들어가신다.").foreach(println)
// 어절 분석
Analyzer.parseEojeol("아버지가방에들어가신다.").foreach(println)
// or
Analyzer.parseEojeol(Analyzer.parse("아버지가방에들어가신다.")).foreach(println)
/**
* 사용자 사전 추가
* surface,cost
* surface: 단어
* cost: 단어 출연 비용. 작을수록 출연할 확률이 높다.
*/
Analyzer.setUserDict(Seq("덕후", "버카충,-100", "낄끼빠빠").toIterator)
Analyzer.parse("덕후냄새가 난다.").foreach(println)
// 활용어 원형
Analyzer.parse("슬픈").flatMap(_.deInflect()).foreach(println)
// 복합명사 분해
Analyzer.parse("삼성전자").flatMap(_.deCompound()).foreach(println)
java
https://bitbucket.org/eunjeon/seunjeon/src/34ede59563e24fa051f5f325f91a8b1e6d1e0f12/?at=v0.1.0
새로운 기능
- Windows OS 지원(by 이항령 https://bitbucket.org/akaroice/)
- offset 값을 문장단위에서 전체 문서 기준으로 변경
- 사전 - endPos 를 substring에 잘 어울리도록 1을 더해줬음.
- 사전 - POS id 를 int 에서 enum 타입으로 변경
- 사전 - pos 를 poses로 변경. compound, inflect, preanalysis 처리에 적합
- 사전 로딩 시간 다소 단축
- preAnalysis 사전 자동 분해
- 복합명사 분해 기능 지원 (deCompound)
- 활용어의 원형 추출 기능 지원 (deInflect)
- 형태소분석 속도 개선(for/map -> while 문 사용)