레이블이 은전한닢인 게시물을 표시합니다. 모든 게시물 표시
레이블이 은전한닢인 게시물을 표시합니다. 모든 게시물 표시

2013년 7월 31일 수요일

리디북스에서 은전한닢 프로젝트를 사용합니다.



전자책 서비스인 리디북스의 책 검색에 은전한닢 프로젝트를 사용합니다. Apache Solr와 mecab-ko-lucene-analyzer를 사용하여 책과 저자 검색을 합니다.

2013년 3월 25일 월요일

은전한닢 프로젝트를 사용한 위키백과 검색 페이지

은전한닢 프로젝트 테스트용 한국 위키백과(http://ko.wikipedia.org/) 검색 페이지를 만들어 보았습니다. 다음의 URL에서 테스트 해보실 수 있습니다.
아마존의 무료 클라우드의 사양이 낮기 때문에, 검색 속도는 좋지 않습니다.
Intel(R) Core(TM) i5 CPU 760@2.80GHz에서 230,163개의 위키 페이지를 인덱싱하는데 6분 23초의 시간이 걸렸습니다.

2013년 2월 12일 화요일

은전한닢 프로젝트를 소개합니다.

은전한닢 프로젝트는 “검색에서 쓸만한 오픈소스 한국어 형태소 분석기를 만들자!” 라는 생각으로 시작하게 된 프로젝트입니다.

‘검색에서 쓸만한’이란 목표 때문에 다음의 두 가지 항목에 초점을 맞춰 개발을 진행하였습니다.
  • 검색 엔진 색인기에서 쓸 수 있는 적당한 품질과 속도
  • 자유로운 라이센스
현재 이용운, 유영호 두 명의 개발자가 공동으로 개발하고 있으며, 총 세 가지의 프로젝트 목표 중 처음 두 개의 결과물을 사용해보실 수 있습니다.
위의 모든 배포물은 아파치 라이센스 2.0에 따라 사용, 재배포 할 수 있습니다. 보다 자세한 사항은 Apache License 2.0을 참조하시기 바랍니다.

형태소 분석을 위한 말뭉치 학습과 사전 목록 일부는 21세기 세종계획의 성과물을 사용하였으며, MeCab을 사용하게 된 것은 다음의 글과 사이트가 결정적 역할을 하였습니다.
프로젝트에 관한 보다 자세한 사항을 은전한닢 프로젝트 마인드맵에서 보실 수 있습니다. 검색이나 한국어 형태소 분석기에 관심이 많으신 분들은 한번 사용해보시고, 많은 피드백 부탁 드립니다. 제발~!!!

형태소분석기 테스트 해보기 - mecab 자체에서의 형태소 분석과 solr 또는 elasticsearch 에서 어떻게 분석되는지를 간단하게 보실 수 있습니다.