2014년 8월 24일 일요일

mecab-ko-lucene-analyzer-0.16.0 배포합니다.

mecab-ko-lucene-analyzer-0.16.0이 나왔습니다.

새로운 기능
  • Lucene/Solr 4.9.0, Elasticsearch 1.3.0 지원
Lucene/Solr 용 분석기
Elasticsearch 용 분석기
주의: 이 버전부터 Lucene/Solr 4.9.0, Elasticsearch 1.3.0 이상의 버전만을 지원합니다. 그 이하의 버전을 사용하시는 분들은 mecab-ko-lucene-analyzer-0.15.1을 사용해주시기 바랍니다.

2014년 8월 14일 목요일

mecab-ko-dic-1.6.1-20140814 배포합니다.

mecab-ko-dic-1.6.1-20140814 나왔습니다.

사전
  • 누락된 중요한 일반 명사(NNG) 추가
  • 몇몇 단어 추가 및 삭제

여기에서 받으실 수 있습니다.

2014년 6월 21일 토요일

mecab-ko-dic-1.6.1-20140515 배포합니다.

mecab-ko-dic-1.6.1-20140515이 나왔습니다.

새로운 기능

  • 사용자 사전 추가 스크립트(사용법)
    • 사용자 사전을 조금 더 편하게 추가하실 수 있도록 하였습니다.
여기에서 받으실 수 있습니다.

2014년 6월 14일 토요일

mecab-ko-lucene-analyzer-0.15.1 배포합니다.

mecab-ko-lucene-analyzer-0.15.1이 나왔습니다.

오류 수정
  • mecab-loader 스레드 세이프(thread-safe)하지 않은 오류 수정
치명적인 오류가 수정되었으므로, 꼭 업그레이드하시기 바랍니다.
Pull request 보내주신 Yunjeong Hong님께 감사드립니다.

Lucene/Solr 용 분석기
Elasticsearch 용 분석기

2014년 5월 24일 토요일

mecab-ko-dic-1.6.0-20140515 배포합니다.

mecab-ko-dic-1.6.0-20140515이 나왔습니다.

변경된 점은 다음과 같습니다.

새로운 기능
  • 학습 말뭉치를 모든 세종 말뭉치에서 50문장씩 사용하는 것으로 변경
  • MAG(일반부사)에 의미 부류 데이터 추가
  • "·,:/"에 새로운 POS(SC) 부여 후 학습
  • "“「" -> SSO, "”」" -> SSC 추가
  • 학습 말뭉치 새로운 프로그램을 사용하여 재구성
  • Inflect 사전 새로운 프로그램을 사용하여 재구성
  • 그 외 정확한 분석을 위해 비용 조정 및 단어 추가
오류 수정
  • MAG(일반부사)가 MAJ(접속부사)로 등록되어 있던 오류 수정

여기서 받으실 수 있습니다.

주의: POS 추가/변경으로 mecab-ko-lucene-analyzer, elasticsearch-analysis-mecab-ko 는 0.15.0 이상 버전을 사용해야 합니다.

mecab-ko-lucene-analyzer-0.15.0 배포합니다.

mecab-ko-lucene-analyzer-0.15.0이 나왔습니다.

mecab-ko-dic 이 1.6.0으로 업그레이드 되어 호환되는 mecab-ko-lucene-analyzer를 새로 배포합니다.

새로운 기능
  • org.bitbucket.eunjeon 로 package 변경.
  • SC(,·/:)태그 skipable에 추가.
  • SE(말줄임)태그 추가.

Lucene/Solr 용 분석기
Elasticsearch 용 분석기

주의: mecab-ko-dic-1.6.0-20140515.tar.gz 이상의 사전을 사용해야 합니다.

2014년 5월 13일 화요일

은전한닢 프로젝트 레포지터리 변경 안내

은전한닢 프로젝트의 레포지터리 변경을 안내해드립니다.
당분간은 곳곳에 깨진링크가 있을 수도 있겠네요. 사용에 불편을 드려서 죄송합니다.

2014년 3월 17일 월요일

mecab-ko-dic-1.5.0-20140317 배포합니다.

mecab-ko-dic-1.5.0-20140317이 나왔습니다.

변경된 점은 다음과 같습니다.
  • Inflect 사전의 end_pos 오류 수정.
  • 몇몇 사전 추가 및 오류 수정

여기에서 받으실 수 있습니다.

2014년 3월 12일 수요일

mecab-ko-0.9.1 배포합니다.

mecab-ko-0.9.1 배포합니다.

mecab에 새로운 사전 추가시 자동 좌/우문맥ID 찾기와 자동 비용 계산이 안되는 버그가 있었습니다.(에러 발생)
그래서 수동으로만 사전 추가가 가능했었습니다.

버그 수정으로 새로운 단어 추가시 좌/우문맥ID와 비용을 수동으로 넣어줄 필요가 없습니다.

다운로드
https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.1.tar.gz

설치방법
mecab-ko 에서 확인하세요.

※ 새로운 사전 추가 방법은 여기를 참고하세요.

새로운 사전 추가 방법

사전 추가는 mecab-0.996-ko-0.9.1 이상에서 동작합니다. 사전 형식은 mecab-ko-dic-1.6 을 따르고 있습니다.

새로운 사전 추가
1. 특정위치에 user_in.csv 파일 생성. 두번째, 세번째,네번째 필드는 빈값으로 둡니다. 일반적으로 고유명사 추가는 품사를 NNP로 하고 의미부류를 사람이름일 경우 "인명" 또는 지명일 경우 "지명" 모두 아닐 경우에는 "*"로 합니다.
  품사와 사전형식은 여기를 참고하세요.(시트를 확인하세요.)
아주대,,,,NNP,*,F,아주대,*,*,*,*,*  
 2. 좌/우문맥ID와 비용생성
$ /usr/local/libexec/mecab/mecab-dict-index \
-m <dic-path>/model.def \
-d <dic-path> \
-u <dic-path>/user.csv \
-f utf-8 \
-t utf-8 \
-a user_in.csv
  • <dic-path>: 다운로드 받은 mecab-ko-dic 디렉토리 위치
  • -m FILE: 모델파일
  • -d DIR : 시스템 사전이있는 디렉토리
  • -u FILE : output FILE
  • -f charset : input 사전파일 문자 코드
  • -t charset : output 사전파일 문자 코드

3. 새로 생성된 <dic_path>/user.csv 확인. 좌/우문맥ID와 비용이 자동 생성되었습니다.
아주대,1092,1681,2528,NNP,*,F,아주대,*,*,*,*,*
4. 사전 컴파일
$ cd <dic_path>
$ make clean;make
그 외 다양한 방법에 대해서는 mecab홈페이지를 참고하세요.

2014년 2월 23일 일요일

mecab-ko-lucene-analyzer-0.14.0 배포합니다.

mecab-ko-lucene-analyzer-0.14.0이 나왔습니다.

mecab-ko-dic-1.5.0 사전 형식 변경으로 lucene-analyzer 새로 배포합니다.

추가된 기능

  • 상세 형태소를 볼 수 있는 partOfSpeech 속성 추가.
  • 의미부류를 볼 수 있는 semanticClass 속성 추가.
solr 에 설치하기
elasticsearch에 설치하기
시연 사이트를 통해 분석 결과를 미리 확인해 보실 수 있습니다.

꼭 사전은 mecab-ko-dic-150-20140223 이상 버전을 받아 사용하세요.

mecab-ko-dic-1.5.0-20140223 배포합니다.

mecab-ko-dic-1.5.0-20140223이 나왔습니다.

변경된 점은 다음과 같습니다.
  • NN으로 표기되던 명사를 NNG(보통 명사), NNP(고유 명사)로 세분화
  • NNB(의존 명사)를 NNB(의존 명사)와 NNBC(단위를 나타내는 명사)로 세분화
  • 사전에서 semantic_class (의미 부류) 필드가 추가
  • 인명 및 지명 사전에 다량의 데이터를 추가
  • 위키피디아 사전에서 다량의 불필요한 단어를 제거하거나 수정

여기서 받으실 수 있습니다.

주의: 사전 형식의 변경으로 인해,  mecab-ko-lucene-analyzer와 elasticsearch-analysis-mecab-ko의 버전을 0.14.0이상으로 변경하셔야 합니다.

2014년 1월 22일 수요일

은전한닢 프로젝트 질의 응답 게시판 생성

구글 그룹스에 공간 개설하였습니다.
은전한닢 프로젝트 관련 질의나 제안이 있다면 무엇이든 올려주세요. 최대한 빠른 피드백 드리겠습니다~

우측 "프로젝트 사이트" 에 은전한닢 프로젝트 질문 게시판 을 통해 가시면 됩니다.