한국어 형태소분석기 elasticsearch plugin입니다. 기존
mecab-ko-lucene-analyzer 가 있지만 설치의 불편함때문에 순수 jvm에서 돌아가는 seunjeon을 가지고 만들었습니다. 설치가 편리한것이 가장 큰 장정입니다. 많은 피드백 부탁드립니다.
설치
./bin/plugin install org.bitbucket.eunjeon/elasticsearch-analysis-seunjeon/2.1.0.0
#!/bin/bash
ES='http://localhost:9200'
ESIDX='seunjeon-idx'
curl -XDELETE $ES/$ESIDX?pretty
curl -XPUT $ES/$ESIDX/?pretty -d '{
"settings" : {
"index":{
"analysis":{
"analyzer":{
"korean":{
"type":"custom",
"tokenizer":"seunjeon_tokenizer"
},
"korean_noun": {
"type":"custom",
"tokenizer":"noun_tokenizer"
}
},
"tokenizer": {
"seunjeon_tokenizer": {
"type": "seunjeon_tokenizer",
"user_words": ["낄끼빠빠,-100", "버카충"]
},
"noun_tokenizer": {
"type": "seunjeon_tokenizer",
"index_eojeol": false,
"index_poses": ["N"]
}
}
}
}
}
}'
sleep 1
echo "========================================================================"
curl -XGET $ES/$ESIDX/_analyze?analyzer=korean\&pretty -d '낄끼빠빠'
echo "========================================================================"
curl -XGET $ES/$ESIDX/_analyze?analyzer=korean\&pretty -d '삼성전자'
echo "========================================================================"
curl -XGET $ES/$ESIDX/_analyze?analyzer=korean\&pretty -d '슬픈'
echo "========================================================================"
curl -XGET $ES/$ESIDX/_analyze?analyzer=korean_noun\&pretty -d '꽃이피다'
주요기능
- 사용자 사전
- 복합명사 분해
- 활용어의 원형 추출
- 어절추출
- 추출함 품사 지정
좋은 프로젝트 진행해주셔서 감사드립니다.
답글삭제고생하셨습니다.
관심 감사합니다~ ^^ 많은 피드백 부탁드립니다~
삭제댓글을 쓰지 않은 많은 분들도 감사히 잘 쓰고 있을 것으로 생각합니다.
답글삭제mecab버전이 좀 번거로웠는데 훨씬 좋아졌습니다.
아직 부족한게 많아 부끄럽네요. 감사합니다. ^^
삭제버전업되길 기다리고 있었는데, 감사합니다.
답글삭제아직 mecab버전의 up 개념은 아니구요. 다른 라인이라고 생각하시면 좋을것 같습니다. ^^ 관심 감사합니다. ^^
삭제이거 역시 루씬에서 사용 가능한가요??
답글삭제아직은 구체적인 계획이 없습니다. 어떻게 해야할지 고민이네요. 개인적인 시간과 관심이 문제네요..
삭제