카카오토픽 클러스터 시스템에서 은전한닢 프로젝트를 사용합니다.
2014년 11월 21일 금요일
2013년 7월 31일 수요일
2013년 3월 25일 월요일
은전한닢 프로젝트를 사용한 위키백과 검색 페이지
은전한닢 프로젝트 테스트용 한국 위키백과(http://ko.wikipedia.org/) 검색 페이지를 만들어 보았습니다. 다음의 URL에서 테스트 해보실 수 있습니다.
아마존의 무료 클라우드의 사양이 낮기 때문에, 검색 속도는 좋지 않습니다.
Intel(R) Core(TM) i5 CPU 760@2.80GHz에서 230,163개의 위키 페이지를 인덱싱하는데 6분 23초의 시간이 걸렸습니다.
아마존의 무료 클라우드의 사양이 낮기 때문에, 검색 속도는 좋지 않습니다.
Intel(R) Core(TM) i5 CPU 760@2.80GHz에서 230,163개의 위키 페이지를 인덱싱하는데 6분 23초의 시간이 걸렸습니다.
2013년 2월 12일 화요일
은전한닢 프로젝트를 소개합니다.
은전한닢 프로젝트는 “검색에서 쓸만한 오픈소스 한국어 형태소 분석기를 만들자!” 라는 생각으로 시작하게 된 프로젝트입니다.
‘검색에서 쓸만한’이란 목표 때문에 다음의 두 가지 항목에 초점을 맞춰 개발을 진행하였습니다.
형태소 분석을 위한 말뭉치 학습과 사전 목록 일부는 21세기 세종계획의 성과물을 사용하였으며, MeCab을 사용하게 된 것은 다음의 글과 사이트가 결정적 역할을 하였습니다.
프로젝트에 관한 보다 자세한 사항을 은전한닢 프로젝트 마인드맵에서 보실 수 있습니다. 검색이나 한국어 형태소 분석기에 관심이 많으신 분들은 한번 사용해보시고, 많은 피드백 부탁 드립니다. 제발~!!!
형태소분석기 테스트 해보기 - mecab 자체에서의 형태소 분석과 solr 또는 elasticsearch 에서 어떻게 분석되는지를 간단하게 보실 수 있습니다.
‘검색에서 쓸만한’이란 목표 때문에 다음의 두 가지 항목에 초점을 맞춰 개발을 진행하였습니다.
- 검색 엔진 색인기에서 쓸 수 있는 적당한 품질과 속도
- 자유로운 라이센스
- mecab-ko-dic - MeCab(범용 형태소 분석기 엔진)용 한국어 형태소 사전
- mecab-ko-lucene-analyzer - mecab-ko-dic를 사용하는 Lucene/Solr용 tokenizer
- elasticsearch-analysis-mecab-ko - ElasticSearch용 플러그인
- 온라인 형태소 사전 관리 시스템 - 구상 중 (작업 일정 미정) 사실은 감이 안옴 -_-;
- (2016-01 추가) seunjeon - pure scala library(not use JIN)
- elasticsearch-analysis-seunjeon - elasticsearch 플러그인
형태소 분석을 위한 말뭉치 학습과 사전 목록 일부는 21세기 세종계획의 성과물을 사용하였으며, MeCab을 사용하게 된 것은 다음의 글과 사이트가 결정적 역할을 하였습니다.
프로젝트에 관한 보다 자세한 사항을 은전한닢 프로젝트 마인드맵에서 보실 수 있습니다. 검색이나 한국어 형태소 분석기에 관심이 많으신 분들은 한번 사용해보시고, 많은 피드백 부탁 드립니다. 제발~!!!
형태소분석기 테스트 해보기 - mecab 자체에서의 형태소 분석과 solr 또는 elasticsearch 에서 어떻게 분석되는지를 간단하게 보실 수 있습니다.
피드 구독하기:
글 (Atom)