카카오토픽 클러스터 시스템에서 은전한닢 프로젝트를 사용합니다.
2014년 11월 21일 금요일
2014년 8월 24일 일요일
mecab-ko-lucene-analyzer-0.16.0 배포합니다.
mecab-ko-lucene-analyzer-0.16.0이 나왔습니다.
새로운 기능
새로운 기능
- Lucene/Solr 4.9.0, Elasticsearch 1.3.0 지원
Lucene/Solr 용 분석기
Elasticsearch 용 분석기
주의: 이 버전부터 Lucene/Solr 4.9.0, Elasticsearch 1.3.0 이상의 버전만을 지원합니다. 그 이하의 버전을 사용하시는 분들은 mecab-ko-lucene-analyzer-0.15.1을 사용해주시기 바랍니다.
2014년 8월 14일 목요일
2014년 7월 15일 화요일
김태호님의 두 개의 글에서 은전한닢 프로젝트가 등장합니다.
김태호님의 두 개의 글에서 은전한닢 프로젝트가 등장합니다. 정말 감사드립니다. :)
똑똑한 뉴스 서비스 만들기: 내가 미국에서 한국 뉴스를 소비하는 방법
배달의 분석 그리고 사용자 예측: 정보기술을 활용하여 배달산업을 발전시킬 Next Step
똑똑한 뉴스 서비스 만들기: 내가 미국에서 한국 뉴스를 소비하는 방법
배달의 분석 그리고 사용자 예측: 정보기술을 활용하여 배달산업을 발전시킬 Next Step
2014년 6월 24일 화요일
2014년 6월 21일 토요일
mecab-ko-dic-1.6.1-20140515 배포합니다.
2014년 6월 14일 토요일
mecab-ko-lucene-analyzer-0.15.1 배포합니다.
mecab-ko-lucene-analyzer-0.15.1이 나왔습니다.
오류 수정
오류 수정
- mecab-loader 스레드 세이프(thread-safe)하지 않은 오류 수정
치명적인 오류가 수정되었으므로, 꼭 업그레이드하시기 바랍니다.
Pull request 보내주신 Yunjeong Hong님께 감사드립니다.
Lucene/Solr 용 분석기
Elasticsearch 용 분석기
2014년 5월 24일 토요일
mecab-ko-dic-1.6.0-20140515 배포합니다.
mecab-ko-dic-1.6.0-20140515이 나왔습니다.
변경된 점은 다음과 같습니다.
새로운 기능
여기서 받으실 수 있습니다.
변경된 점은 다음과 같습니다.
새로운 기능
- 학습 말뭉치를 모든 세종 말뭉치에서 50문장씩 사용하는 것으로 변경
- MAG(일반부사)에 의미 부류 데이터 추가
- "·,:/"에 새로운 POS(SC) 부여 후 학습
- "“「" -> SSO, "”」" -> SSC 추가
- 학습 말뭉치 새로운 프로그램을 사용하여 재구성
- Inflect 사전 새로운 프로그램을 사용하여 재구성
- 그 외 정확한 분석을 위해 비용 조정 및 단어 추가
오류 수정
- MAG(일반부사)가 MAJ(접속부사)로 등록되어 있던 오류 수정
여기서 받으실 수 있습니다.
주의: POS 추가/변경으로 mecab-ko-lucene-analyzer, elasticsearch-analysis-mecab-ko 는 0.15.0 이상 버전을 사용해야 합니다.
mecab-ko-lucene-analyzer-0.15.0 배포합니다.
mecab-ko-lucene-analyzer-0.15.0이 나왔습니다.
mecab-ko-dic 이 1.6.0으로 업그레이드 되어 호환되는 mecab-ko-lucene-analyzer를 새로 배포합니다.
새로운 기능
mecab-ko-dic 이 1.6.0으로 업그레이드 되어 호환되는 mecab-ko-lucene-analyzer를 새로 배포합니다.
새로운 기능
- org.bitbucket.eunjeon 로 package 변경.
- SC(,·/:)태그 skipable에 추가.
- SE(말줄임)태그 추가.
Lucene/Solr 용 분석기
Elasticsearch 용 분석기
주의: mecab-ko-dic-1.6.0-20140515.tar.gz 이상의 사전을 사용해야 합니다.
2014년 5월 13일 화요일
은전한닢 프로젝트 레포지터리 변경 안내
은전한닢 프로젝트의 레포지터리 변경을 안내해드립니다.
- mecab-ko
- mecab-ko-dic
- mecab-ko-lucene-analyzer
당분간은 곳곳에 깨진링크가 있을 수도 있겠네요. 사용에 불편을 드려서 죄송합니다.
2014년 3월 17일 월요일
mecab-ko-dic-1.5.0-20140317 배포합니다.
mecab-ko-dic-1.5.0-20140317이 나왔습니다.
변경된 점은 다음과 같습니다.
- Inflect 사전의 end_pos 오류 수정.
- 몇몇 사전 추가 및 오류 수정
여기에서 받으실 수 있습니다.
2014년 3월 12일 수요일
mecab-ko-0.9.1 배포합니다.
mecab-ko-0.9.1 배포합니다.
mecab에 새로운 사전 추가시 자동 좌/우문맥ID 찾기와 자동 비용 계산이 안되는 버그가 있었습니다.(에러 발생)
그래서 수동으로만 사전 추가가 가능했었습니다.
버그 수정으로 새로운 단어 추가시 좌/우문맥ID와 비용을 수동으로 넣어줄 필요가 없습니다.
다운로드
https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.1.tar.gz
설치방법
mecab-ko 에서 확인하세요.
※ 새로운 사전 추가 방법은 여기를 참고하세요.
mecab에 새로운 사전 추가시 자동 좌/우문맥ID 찾기와 자동 비용 계산이 안되는 버그가 있었습니다.(에러 발생)
그래서 수동으로만 사전 추가가 가능했었습니다.
버그 수정으로 새로운 단어 추가시 좌/우문맥ID와 비용을 수동으로 넣어줄 필요가 없습니다.
다운로드
https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.1.tar.gz
설치방법
mecab-ko 에서 확인하세요.
※ 새로운 사전 추가 방법은 여기를 참고하세요.
새로운 사전 추가 방법
사전 추가는 mecab-0.996-ko-0.9.1 이상에서 동작합니다. 사전 형식은 mecab-ko-dic-1.6 을 따르고 있습니다.
새로운 사전 추가
1. 특정위치에 user_in.csv 파일 생성. 두번째, 세번째,네번째 필드는 빈값으로 둡니다. 일반적으로 고유명사 추가는 품사를 NNP로 하고 의미부류를 사람이름일 경우 "인명" 또는 지명일 경우 "지명" 모두 아닐 경우에는 "*"로 합니다.
품사와 사전형식은 여기를 참고하세요.(시트를 확인하세요.)
3. 새로 생성된 <dic_path>/user.csv 확인. 좌/우문맥ID와 비용이 자동 생성되었습니다.
새로운 사전 추가
1. 특정위치에 user_in.csv 파일 생성. 두번째, 세번째,네번째 필드는 빈값으로 둡니다. 일반적으로 고유명사 추가는 품사를 NNP로 하고 의미부류를 사람이름일 경우 "인명" 또는 지명일 경우 "지명" 모두 아닐 경우에는 "*"로 합니다.
품사와 사전형식은 여기를 참고하세요.(시트를 확인하세요.)
아주대,,,,NNP,*,F,아주대,*,*,*,*,*2. 좌/우문맥ID와 비용생성
$ /usr/local/libexec/mecab/mecab-dict-index \
-m <dic-path>/model.def \
-d <dic-path> \
-u <dic-path>/user.csv \
-f utf-8 \
-t utf-8 \
-a user_in.csv
- <dic-path>: 다운로드 받은 mecab-ko-dic 디렉토리 위치
- -m FILE: 모델파일
- -d DIR : 시스템 사전이있는 디렉토리
- -u FILE : output FILE
- -f charset : input 사전파일 문자 코드
- -t charset : output 사전파일 문자 코드
3. 새로 생성된 <dic_path>/user.csv 확인. 좌/우문맥ID와 비용이 자동 생성되었습니다.
아주대,1092,1681,2528,NNP,*,F,아주대,*,*,*,*,*
4. 사전 컴파일
$ cd <dic_path>
$ make clean;make그 외 다양한 방법에 대해서는 mecab홈페이지를 참고하세요.
2014년 2월 23일 일요일
mecab-ko-lucene-analyzer-0.14.0 배포합니다.
mecab-ko-lucene-analyzer-0.14.0이 나왔습니다.
mecab-ko-dic-1.5.0 사전 형식 변경으로 lucene-analyzer 새로 배포합니다.
추가된 기능
mecab-ko-dic-1.5.0 사전 형식 변경으로 lucene-analyzer 새로 배포합니다.
추가된 기능
- 상세 형태소를 볼 수 있는 partOfSpeech 속성 추가.
- 의미부류를 볼 수 있는 semanticClass 속성 추가.
solr 에 설치하기
elasticsearch에 설치하기
- https://bitbucket.org/eunjeon/mecab-ko-lucene-analyzer/raw/master/elasticsearch-analysis-mecab-ko/ 를 참고하세요.
시연 사이트를 통해 분석 결과를 미리 확인해 보실 수 있습니다.
꼭 사전은 mecab-ko-dic-150-20140223 이상 버전을 받아 사용하세요.
mecab-ko-dic-1.5.0-20140223 배포합니다.
mecab-ko-dic-1.5.0-20140223이 나왔습니다.
변경된 점은 다음과 같습니다.
여기서 받으실 수 있습니다.
주의: 사전 형식의 변경으로 인해, mecab-ko-lucene-analyzer와 elasticsearch-analysis-mecab-ko의 버전을 0.14.0이상으로 변경하셔야 합니다.
변경된 점은 다음과 같습니다.
- NN으로 표기되던 명사를 NNG(보통 명사), NNP(고유 명사)로 세분화
- NNB(의존 명사)를 NNB(의존 명사)와 NNBC(단위를 나타내는 명사)로 세분화
- 사전에서 semantic_class (의미 부류) 필드가 추가
- 다음과 같은 의미 부류가 추가
- NNP(고유 명사) - ‘인명’, ‘지명’
- MM(관형사) - ‘~명사’, ‘~가산명사’, ‘~인명명사’, ‘~수표현’ 등
- 변경된 사전 형식에 관해서는 다음의 URL의 ‘사전 형식 v1.5’ 시트에서 확인하실 수 있습니다.
- 인명 및 지명 사전에 다량의 데이터를 추가
- 위키피디아 사전에서 다량의 불필요한 단어를 제거하거나 수정
여기서 받으실 수 있습니다.
주의: 사전 형식의 변경으로 인해, mecab-ko-lucene-analyzer와 elasticsearch-analysis-mecab-ko의 버전을 0.14.0이상으로 변경하셔야 합니다.
2014년 1월 22일 수요일
은전한닢 프로젝트 질의 응답 게시판 생성
구글 그룹스에 공간 개설하였습니다.
은전한닢 프로젝트 관련 질의나 제안이 있다면 무엇이든 올려주세요. 최대한 빠른 피드백 드리겠습니다~
우측 "프로젝트 사이트" 에 은전한닢 프로젝트 질문 게시판 을 통해 가시면 됩니다.
은전한닢 프로젝트 관련 질의나 제안이 있다면 무엇이든 올려주세요. 최대한 빠른 피드백 드리겠습니다~
우측 "프로젝트 사이트" 에 은전한닢 프로젝트 질문 게시판 을 통해 가시면 됩니다.
피드 구독하기:
글 (Atom)