2016년 1월 5일 화요일

seunjeon 1.0.0 배포합니다.

많은 부분 변경되었습니다. 클래스명도 바뀌고 멤버변수들도 많이 바뀌었습니다. 업그레이드 하시는분은 조금 신경을 써야할 것 같습니다.

* 소스 및 사용법: https://bitbucket.org/eunjeon/seunjeon

Maven

<dependencies>
    <dependency>
        <groupId>org.bitbucket.eunjeon</groupId>
        <artifactId>seunjeon_2.11</artifactId>
        <version>1.0.0</version>
    </dependency>
</dependencies>

사용

scala

import org.bitbucket.eunjeon.seunjeon.Analyzer

// 형태소 분석
Analyzer.parse("아버지가방에들어가신다.").foreach(println)

// 어절 분석
Analyzer.parseEojeol("아버지가방에들어가신다.").foreach(println)
// or
Analyzer.parseEojeol(Analyzer.parse("아버지가방에들어가신다.")).foreach(println)

/**
  * 사용자 사전 추가
  * surface,cost
  *   surface: 단어
  *   cost: 단어 출연 비용. 작을수록 출연할 확률이 높다.
  */
Analyzer.setUserDict(Seq("덕후", "버카충,-100", "낄끼빠빠").toIterator)
Analyzer.parse("덕후냄새가 난다.").foreach(println)

// 활용어 원형
Analyzer.parse("슬픈").flatMap(_.deInflect()).foreach(println)

// 복합명사 분해
Analyzer.parse("삼성전자").flatMap(_.deCompound()).foreach(println)
품사태그는 여기를 참고하세요.

java

https://bitbucket.org/eunjeon/seunjeon/src/34ede59563e24fa051f5f325f91a8b1e6d1e0f12/?at=v0.1.0


새로운 기능

  • Windows OS 지원(by 이항령 https://bitbucket.org/akaroice/)
  • offset 값을 문장단위에서 전체 문서 기준으로 변경 
  • 사전 - endPos 를 substring에 잘 어울리도록 1을 더해줬음.
  • 사전 - POS id 를 int 에서 enum 타입으로 변경
  • 사전 - pos 를 poses로 변경. compound, inflect, preanalysis 처리에 적합
  • 사전 로딩 시간 다소 단축
  • preAnalysis 사전 자동 분해
  • 복합명사 분해 기능 지원 (deCompound)
  • 활용어의 원형 추출 기능 지원 (deInflect)
  • 형태소분석 속도 개선(for/map -> while 문 사용)

댓글 없음:

댓글 쓰기