2013년 2월 27일 수요일

mecab-ko-lucene-analyzer-0.9.2 배포합니다.

mecab-ko-lucene-analyzer-0.9.2가 나왔습니다.
  • StandardIndexTokenizerFactory에서 decompoundMinLength(복합명사 분해 최소 길이)를 세팅할 수 있도록 함. 복합명사의 길이가 decompoundMinLength 보다 작으면 분해하지 않음. 참고
여기서 받으실 수 있습니다.

2013년 2월 26일 화요일

mecab-ko-dic-1.1.3-20130226 배포합니다.

mecab-ko-dic-1.1.3-20130226이 나왔습니다.
  • 한자 사전을 추가
  • 조사 + 모든 품사에 대한 연접 비용 학습 방식을 변경
  • 약간의 단어 추가 및 삭제
여기서 받으실 수 있습니다.

2013년 2월 21일 목요일

Cent OS 5.9에서 MeCab 및 mecab-ko-dic 설치하기

 주로 Ubuntu 12.10에서 작업과 테스트를 했는데, Cent OS 5.9에서 테스트 해보니, 설치가 쉽지 않네요. Cent OS 5.9가 gcc와 autotools 버전이 낮아서 생기는 문제로 생각됩니다. 삽질 끝에 설치 방법 올립니다. 참고로 Cent OS 6.3에서는 별 문제 없이 MeCab 및 mecab-ko-dic 설치가 가능합니다.

MeCab 설치

일단, Cent OS 5.9의 기본 gcc에서는 다음과 같은 에러를 내면서, 컴파일이 안됩니다.
libtool: link: g++ -O3 -Wall -o .libs/mecab mecab.o  ./.libs/libmecab.so -lpthread -lstdc++ -Wl,-rpath -Wl,/usr/local/lib
./.libs/libmecab.so: undefined reference to `__sync_val_compare_and_swap_4'
collect2: ld returned 1 exit status
make[2]: *** [mecab] 오류 1
...
검색을 좀 해보니, 그냥 gcc 버전을 올리는 것이 답인 듯 하여, 다음과 같이 gcc 4.4.7을 설치 하였습니다.
# yum install gcc44 gcc44-c++
이후, 다음과 같이 컴파일 및 설치를 진행하시면 잘됩니다.
$ cd mecab-0.994
$ ./configure CXX=g++44
$ make
# make install

mecab-ko-dic 설치

mecab-ko-dic도 autotools의 버전 문제로 ./configure가 안됩니다. 다음과 같이 autoreconf로 configure 파일을 다시 작성하신 후 설치하시면 됩니다.
$ tar xvzf mecab-ko-dic-1.1.2-20130219.tar.gz
$ cd mecab-ko-dic-1.1.2-20130219
$ autoreconf -vi
$ ./configure
$ make
$ make install

2013년 2월 19일 화요일

mecab-ko-lucene-analyzer-0.9.1 배포합니다.

mecab-ko-lucene-analyzer-0.9.1이 나왔습니다.
  • 오분석 된 조사 처리 방식이 변경되었습니다. 참고 이슈
  • 지역명 사전(NN-Place.csv)에서 중복 어휘 제거하였습니다.
  • 조사와 조사의 연접 비용 학습 방식을 변경하였습니다.
여기서 받으실 수 있습니다.

mecab-ko-dic-1.1.2-20130219 배포합니다.

mecab-ko-dic-1.1.2-20130219이 나왔습니다.
  • 과도한 형태소 분석을 막기위한 Atomic.csv 사전이 추가 되었습니다.
  • 지역명 사전(NN-Place.csv)에서 중복 어휘 제거하였습니다.
  • 조사와 조사의 연접 비용 학습 방식을 변경하였습니다.

여기서 받으실 수 있습니다.

2013년 2월 16일 토요일

mecab-ko-dic-1.1.1-20130213 배포합니다.

mecab-ko-dic-1.1.1-20130213이 나왔습니다.
여기서 받으실 수 있습니다.

2013년 2월 12일 화요일

은전한닢 프로젝트를 소개합니다.

은전한닢 프로젝트는 “검색에서 쓸만한 오픈소스 한국어 형태소 분석기를 만들자!” 라는 생각으로 시작하게 된 프로젝트입니다.

‘검색에서 쓸만한’이란 목표 때문에 다음의 두 가지 항목에 초점을 맞춰 개발을 진행하였습니다.
  • 검색 엔진 색인기에서 쓸 수 있는 적당한 품질과 속도
  • 자유로운 라이센스
현재 이용운, 유영호 두 명의 개발자가 공동으로 개발하고 있으며, 총 세 가지의 프로젝트 목표 중 처음 두 개의 결과물을 사용해보실 수 있습니다.
위의 모든 배포물은 아파치 라이센스 2.0에 따라 사용, 재배포 할 수 있습니다. 보다 자세한 사항은 Apache License 2.0을 참조하시기 바랍니다.

형태소 분석을 위한 말뭉치 학습과 사전 목록 일부는 21세기 세종계획의 성과물을 사용하였으며, MeCab을 사용하게 된 것은 다음의 글과 사이트가 결정적 역할을 하였습니다.
프로젝트에 관한 보다 자세한 사항을 은전한닢 프로젝트 마인드맵에서 보실 수 있습니다. 검색이나 한국어 형태소 분석기에 관심이 많으신 분들은 한번 사용해보시고, 많은 피드백 부탁 드립니다. 제발~!!!

형태소분석기 테스트 해보기 - mecab 자체에서의 형태소 분석과 solr 또는 elasticsearch 에서 어떻게 분석되는지를 간단하게 보실 수 있습니다.