2015년 8월 26일 수요일

mecab-ko-dic-2.0.1-20150825 배포합니다.

mecab-ko-dic-2.0.1-20150825 나왔습니다.

사전
  • 일반 명사로 등록된 인명 제거 or 'NNP/인명'으로 수정
  • 이성계/NNP/인명 출현 비용 낮춤
여기에서 받으실 수 있습니다.

2015년 8월 20일 목요일

seunjeon 0.1.0 배포합니다.

오랜 숙원사업이었던 은전한닢 JVM버전을 만들었습니다. 한번 해본적없는 scala로 해보겠다고 객기를 부려 만들었습니다. 코드가 참 스칼라도 아니고 자바도 아닌 놈이 나왔네요 ^^;  차츰 이뻐지지 않을까 기대를 해 봅니다.


빠르게 세상을 보여주고싶은 마음에 성능적으로나 소스 가독성으로나 많이 튜닝을 하진 못했습니다. (지금보다 앞으로가 더 밝다고 할 수 있겠네요 ^^;) 그래도 성능적인 면에서 은전한닢 native 만큼은 아니더라도 다른 오픈소스 형태소분석기들보다 잘 뽑아줍니다.

분석결과도 mecab-ko-dic 기반으로 했기 때문에 mecab-ko 와 크게 다르지 않습니다. 하지만 정확히 같은 결과를 주지는 않습니다. 아무래도 mecab가 일본에서 만들기도 했고, 워낙 제너릭하게 만들어졌다보니 한국어를 분석하는데는 조금씩 아쉬운 점이 있었습니다. 그래서 굳이 mecab 카피 버전을 만든다기보다는 한국어지향의 형태소분석기를 만들기로 했습니다.

급한 마음에 일단 릴리즈를 하였습니다. feel 받았을 때 빠르게 추가 기능을 구현하려고 합니다. 일단은 사용자 사전 정의가 가능하면 좋을 것 같고, elasticsearch plugin도 개발하면 좋겠네요. 기존 은전한닢이 지원하는 부분이긴 한데 native binary이다보니 elasticsearch에 붙이는데 많은 불편함과 어려움이 있었던 것을 보아왔습니다. 성능도 더 끌어 올릴꺼고요, 사용자 커스터마이징적인 요소도 넣고싶네요.  앞으로 더 재미지게 개발해 나갈 수 있도록 많이들 사용해 주세요 ^^

사용하시면서 불편한 점이나 필요한 기능을 말하고 싶다면 여기로 연락주시면 되겠습니다. 스스로 기능을 구현하여 기여해 주셔도 좋습니다. 아직 틀이 덜 잡혀서 애매하긴 하겠지만 이쁘게 틀을 잡아 놓겠습니다.

사용법 및 상세한 내용은 https://bitbucket.org/eunjeon/seunjeon 로 방문하세요.

감사합니다.