2013년 4월 27일 토요일

mecab-ko-dic-1.2.0-20130427 배포합니다.

mecab-ko-dic-1.2.0-20130427이 나왔습니다.
  • mecab-ko에 맞춰서 학습 규칙 및 설정 변경
  • 인명사전(NN-Person.csv) 데이터 다량 추가
  • _Wikipedia.csv 사전을 단일 명사와 복합 명사 사전으로 나눔
여기서 받으실 수 있습니다.

댓글 8개:

  1. 윈도우용 mecab을 설치하고 사용해보려 하고 있습니다. 환경이 윈도우이다 보니 사전이 문제라 윈도우용 사전을 배포하실 계획은 없으실까요?

    답글삭제
    답글
    1. mecab-ko-dic-1.2.0부터는 mecab-ko를 사용하셔야 합니다. 은전한닢 다른 진행할 부분도 있고, 현재는 제가 풀타임으로 은전한닢을 진행할 수 있는 상황이 아니라, 언제 윈도우 쪽을 테스트해 볼 수 있을지 모르겠습니다. 좋은 답변을 못드려서 죄송해요. 가능한 빨리 윈도우 쪽도 볼 수 있도록 노력해보겠습니다.

      삭제
  2. 한국어 형태소 분석기.. 어려운 일 진행해 주셔서 감사합니다! ㅠㅠ/

    답글삭제
  3. 집에있는 라즈베리파이에서 사전컴파일.한다음 한글 윈도우를 가져와서 설정파일.손봐주니 콘솔창에서는 인코딩문제로 안되는듯하지만 인풋 아웃풋 파일지정하고 하니 처라됩니다 ^^; python mecab하고 rmecab같은 바인딩도 in out 인코딩만 좀 손대고 테스트해보니 되네요 감사함니다 멋진일 하시는거 같아요^^

    답글삭제
  4. 현재 bitbucket만 있고, 관련 포럼은 없는 것 같아서.. 여기에 스브적 질문 하나 드립니다;;

    한국어는 매우 잘 됩니다! 그런데 영어는 good이나 is 나 모두 SL로 구분이 되고
    아마존 테스트 링크에서 text_en으로 해서는 구분이 되는 것으로 보아

    영어와 한글을 따로 지정해서 사용해야 하는 것 같은데
    묶어서 사용하려면 방법이 없을까요?


    MeCab이 파이썬, php 등등 바인딩이 워낙 좋아 굉장히 유용하네요!
    활성화 될 수 있는 계기만 있다면 정말 좋겠습니다!!!!

    답글삭제
    답글
    1. 현재 mecab-ko-dic에서는 영어 사전이 따로 없기 때문에, 영어 문자가 그루핑되어 SL로 표기되고 있습니다. 현재로써는 딱히 방법이 없습니다. 전부 영어인 텍스트의 경우에는 기존 lucene의 다른 tokenizer를 쓰시면 됩니다.

      삭제
    2. 그렇다면 현재로썬 혼합되어 있는 경우에는 한글 한 번, 영어 한 번 두 번을 거쳐야 겠네요. 답변해 주셔서 감사합니다!

      삭제