은전한닢 프로젝트
검색에서 쓸만한 오픈소스 한국어 형태소 분석기를 만들자!
2015년 9월 20일 일요일
mecab-ko-dic-2.0.1-20150920 배포합니다.
mecab-ko-dic-2.0.1-20150920
이
나왔습니다.
사전
'주의'로 끝나는 단어 (ex: 민주주의, 자연주의) 오분석 방지를 위해 출현 비용 낮춤
오류 수정
'주의'로 끝나는 단어 (ex: 민주주의, 자연주의) NNG로 변경하고, 사전 오류 수정
여기
에서 받으실 수 있습니다.
2015년 9월 13일 일요일
seunjeon 0.3.0 배포합니다.
새로운 버전 배포합니다. 사용사 사전을 정의할 수 있게 하였습니다.
정의 방법은 저장소에서
README
를 참고해주세요.
저장소:
https://bitbucket.org/eunjeon/seunjeon
새로운 기능
사용사 사전을 정의할 수 있게 기능 추가. 비용 조정 가능
일괄 일반명사(NNG)로 등록. default 비용은
1000
-(surface.
length
*
100
)
기타
guava library 의존성 제거
2015년 9월 6일 일요일
seunjeon 0.2.1 배포합니다.
비용 계산하는 곳에 나름 심각한 버그가 있었습니다. 연접비용를 잘못 계산하는 바람에 오분석이 되는 경우가 있었습니다. 기존 버전을 사용하고 계신분들은 꼭 패치 하시기 바랍니다.
해당 버그는
김선겸
님께서 고쳐주셨습니다.
김선겸
님께 무한한 감사 드립니다. :)
저장소:
https://bitbucket.org/eunjeon/seunjeon
오류수정
연접비용(connectionCostDict) 사전 위치 포인팅 버그 수정
2015년 9월 1일 화요일
seunjeon 0.2.0 배포합니다.
0.1.0 배포 후 꾸준히 작업하고 있습니다. 그래도 시간이 많이 나질 않네요..
외형상 추가된 기능은 없습니다. 조금 더 안정적으로 돌아간다고 생각하시면 되겠습니다. 구체적인 내용은 아래에 있습니다.
저장소:
https://bitbucket.org/eunjeon/seunjeon
새로운 기능
char.def
에서 설정된 charset값들 읽도록 구현,
unknown term 생성 규칙을
char.def
에서 로딩함.
unk.def
에서 unknown term 비용값 읽어오도록 함.
최근 게시물
이전 게시물
홈
피드 구독하기:
글 (Atom)