2014년 5월 24일 토요일

mecab-ko-dic-1.6.0-20140515 배포합니다.

mecab-ko-dic-1.6.0-20140515이 나왔습니다.

변경된 점은 다음과 같습니다.

새로운 기능
  • 학습 말뭉치를 모든 세종 말뭉치에서 50문장씩 사용하는 것으로 변경
  • MAG(일반부사)에 의미 부류 데이터 추가
  • "·,:/"에 새로운 POS(SC) 부여 후 학습
  • "“「" -> SSO, "”」" -> SSC 추가
  • 학습 말뭉치 새로운 프로그램을 사용하여 재구성
  • Inflect 사전 새로운 프로그램을 사용하여 재구성
  • 그 외 정확한 분석을 위해 비용 조정 및 단어 추가
오류 수정
  • MAG(일반부사)가 MAJ(접속부사)로 등록되어 있던 오류 수정

여기서 받으실 수 있습니다.

주의: POS 추가/변경으로 mecab-ko-lucene-analyzer, elasticsearch-analysis-mecab-ko 는 0.15.0 이상 버전을 사용해야 합니다.

댓글 2개:

  1. 작성자가 댓글을 삭제했습니다.

    답글삭제
  2. 안녕하세요. 좋은 프로그램을 만들어 주셔서 감사합니다. 이제 막 언어정보를 공부하기 시작한 학생인데, 혹시 분석한 형태 으미 분석 자료에서 각 어휘의 빈도를 확인하려면 어떻게 해야 하는지 조언해주실 수 있으신가요? 전에 Uttager로 분석 후 기존 세종 형태의미 분석 말뭉치에 하나 하나 손으로 복사 붙여넣기 한 다음 한마루를 통계자료를 얻었는데, 시간이 너무 많이 걸리고 정말 이런 건 아니지 않을까 하는 생각이 들어서ㅠㅠ 여쭤봅니다.

    답글삭제