* 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon
Maven
<dependencies> <dependency> <groupId>org.bitbucket.eunjeon</groupId> <artifactId>seunjeon_2.11</artifactId> <version>1.0.0</version> </dependency> </dependencies>
사용
scala
import org.bitbucket.eunjeon.seunjeon.Analyzer // 형태소 분석 Analyzer.parse("아버지가방에들어가신다.").foreach(println) // 어절 분석 Analyzer.parseEojeol("아버지가방에들어가신다.").foreach(println) // or Analyzer.parseEojeol(Analyzer.parse("아버지가방에들어가신다.")).foreach(println) /** * 사용자 사전 추가 * surface,cost * surface: 단어 * cost: 단어 출연 비용. 작을수록 출연할 확률이 높다. */ Analyzer.setUserDict(Seq("덕후", "버카충,-100", "낄끼빠빠").toIterator) Analyzer.parse("덕후냄새가 난다.").foreach(println) // 활용어 원형 Analyzer.parse("슬픈").flatMap(_.deInflect()).foreach(println) // 복합명사 분해 Analyzer.parse("삼성전자").flatMap(_.deCompound()).foreach(println)
품사태그는 여기를 참고하세요.
java
https://bitbucket.org/eunjeon/seunjeon/src/34ede59563e24fa051f5f325f91a8b1e6d1e0f12/?at=v0.1.0
새로운 기능
- Windows OS 지원(by 이항령 https://bitbucket.org/akaroice/)
- offset 값을 문장단위에서 전체 문서 기준으로 변경
- 사전 - endPos 를 substring에 잘 어울리도록 1을 더해줬음.
- 사전 - POS id 를 int 에서 enum 타입으로 변경
- 사전 - pos 를 poses로 변경. compound, inflect, preanalysis 처리에 적합
- 사전 로딩 시간 다소 단축
- preAnalysis 사전 자동 분해
- 복합명사 분해 기능 지원 (deCompound)
- 활용어의 원형 추출 기능 지원 (deInflect)
- 형태소분석 속도 개선(for/map -> while 문 사용)
댓글 없음:
댓글 쓰기