레이블이 mecab-ko-dic인 게시물을 표시합니다. 모든 게시물 표시
레이블이 mecab-ko-dic인 게시물을 표시합니다. 모든 게시물 표시

2018년 7월 21일 토요일

mecab-ko-dic-2.1.1-20180720 배포합니다.

mecab-ko-dic-2.1.1-20180720 나왔습니다.

오류 수정
  • NNG/장소의 출현 비용이 비정상적으로 높았던 문제(학습 데이터) 수정 후 재학습
사전
  • 오피스/NNG/장소 추가
여기에서 받으실 수 있습니다.

2018년 7월 17일 화요일

mecab-ko-dic-2.1.0-20180716 배포합니다.

mecab-ko-dic-2.1.0-20180716 나왔습니다.

새로운 기능
  • 오분석을 줄이기 위해 NNG(보통 명사) 의미 부류 '장소', '행위', '상태변화', '정적사태'를 추가하고 재학습
    • NNG(보통 명사)와 XSV(동사 파생 접미사), XSA(형용사 파생 접미사)와의 과도한 연결이 줄어들 것으로 기대
사전
  • 의미 부류에 '/'가 들어가 있는 경우 '|' 문자로 대체. ex: '성분부사/양태부사' -> '성분부사|양태부사'
  • 그 밖에 자잘한 사전 오류 수정
여기에서 받으실 수 있습니다.

2015년 9월 20일 일요일

mecab-ko-dic-2.0.1-20150920 배포합니다.

mecab-ko-dic-2.0.1-20150920 나왔습니다.

사전
  • '주의'로 끝나는 단어 (ex: 민주주의, 자연주의) 오분석 방지를 위해 출현 비용 낮춤
오류 수정
  • '주의'로 끝나는 단어 (ex: 민주주의, 자연주의) NNG로 변경하고, 사전 오류 수정
여기에서 받으실 수 있습니다.

2015년 8월 26일 수요일

mecab-ko-dic-2.0.1-20150825 배포합니다.

mecab-ko-dic-2.0.1-20150825 나왔습니다.

사전
  • 일반 명사로 등록된 인명 제거 or 'NNP/인명'으로 수정
  • 이성계/NNP/인명 출현 비용 낮춤
여기에서 받으실 수 있습니다.

2015년 7월 7일 화요일

mecab-ko-dic-2.0.1-20150707 배포합니다.

mecab-ko-dic-2.0.1-20150707 나왔습니다.

사전
  • 길들이/VV 출현 비용 줄임 -> 3000
  • '내'로 시작하는 인명, 지명 출현 비용 줄임 ('내방' -> '내' + '방'으로 오분석 방지)
  • 의/JKG -> BOS/EOS 연결 비용 올림
  • 몇몇 단어 추가
오류 수정
  • 학습 데이터에서 문장 중간을 문장의 끝으로 인식했던 오류 수정하여 재학습
  • 인명, 지명 비용 조정 스크립트 오류 수정

여기에서 받으실 수 있습니다.

추가: 오류 보고해주신 서지현님. 감사합니다. :)

2015년 5월 17일 일요일

mecab-ko-dic-2.0.0-20150517 배포합니다.

mecab-ko-dic-2.0.0-20150517가 나왔습니다.

새로운 기능
  • 체언 POS ID 세분화
    • 기존: NNG|NNP|NNB|NNBC|NR|NP->150
    • 변경: NNG->150, NNP->151, NNB->152, NNBC->153, NR->154, NP->155
  • UNKNOWN POS ID 0에서 999로 변경
사전
  • 사전 포맷(csv) 형식 변경 (원형과 인덱싱 표현 필드 통합) -표층형,0,0,0,품사 태그,의미 부류,종성 유무,읽기,타입,첫번째 품사,마지막 품사,표현
    • 표현 필드의 형식: 표층형/품사태그/의미부류+...
  • 우리나라 지하철역명 사전 추가
  • 몇몇 단어 추가
오류 수정
  • 단위를 나타내는 의존 명사를 다른 의존 명사로 학습한 오류 수정

여기에서 받으실 수 있습니다.

주의: 사전 형식의 변경으로, mecab-ko-lucene-analyzer도 0.17.0으로 버전 업그레이드가 필요합니다.

2014년 8월 14일 목요일

mecab-ko-dic-1.6.1-20140814 배포합니다.

mecab-ko-dic-1.6.1-20140814 나왔습니다.

사전
  • 누락된 중요한 일반 명사(NNG) 추가
  • 몇몇 단어 추가 및 삭제

여기에서 받으실 수 있습니다.

2014년 6월 21일 토요일

mecab-ko-dic-1.6.1-20140515 배포합니다.

mecab-ko-dic-1.6.1-20140515이 나왔습니다.

새로운 기능

  • 사용자 사전 추가 스크립트(사용법)
    • 사용자 사전을 조금 더 편하게 추가하실 수 있도록 하였습니다.
여기에서 받으실 수 있습니다.

2014년 5월 24일 토요일

mecab-ko-dic-1.6.0-20140515 배포합니다.

mecab-ko-dic-1.6.0-20140515이 나왔습니다.

변경된 점은 다음과 같습니다.

새로운 기능
  • 학습 말뭉치를 모든 세종 말뭉치에서 50문장씩 사용하는 것으로 변경
  • MAG(일반부사)에 의미 부류 데이터 추가
  • "·,:/"에 새로운 POS(SC) 부여 후 학습
  • "“「" -> SSO, "”」" -> SSC 추가
  • 학습 말뭉치 새로운 프로그램을 사용하여 재구성
  • Inflect 사전 새로운 프로그램을 사용하여 재구성
  • 그 외 정확한 분석을 위해 비용 조정 및 단어 추가
오류 수정
  • MAG(일반부사)가 MAJ(접속부사)로 등록되어 있던 오류 수정

여기서 받으실 수 있습니다.

주의: POS 추가/변경으로 mecab-ko-lucene-analyzer, elasticsearch-analysis-mecab-ko 는 0.15.0 이상 버전을 사용해야 합니다.

2014년 3월 17일 월요일

mecab-ko-dic-1.5.0-20140317 배포합니다.

mecab-ko-dic-1.5.0-20140317이 나왔습니다.

변경된 점은 다음과 같습니다.
  • Inflect 사전의 end_pos 오류 수정.
  • 몇몇 사전 추가 및 오류 수정

여기에서 받으실 수 있습니다.

2014년 2월 23일 일요일

mecab-ko-dic-1.5.0-20140223 배포합니다.

mecab-ko-dic-1.5.0-20140223이 나왔습니다.

변경된 점은 다음과 같습니다.
  • NN으로 표기되던 명사를 NNG(보통 명사), NNP(고유 명사)로 세분화
  • NNB(의존 명사)를 NNB(의존 명사)와 NNBC(단위를 나타내는 명사)로 세분화
  • 사전에서 semantic_class (의미 부류) 필드가 추가
  • 인명 및 지명 사전에 다량의 데이터를 추가
  • 위키피디아 사전에서 다량의 불필요한 단어를 제거하거나 수정

여기서 받으실 수 있습니다.

주의: 사전 형식의 변경으로 인해,  mecab-ko-lucene-analyzer와 elasticsearch-analysis-mecab-ko의 버전을 0.14.0이상으로 변경하셔야 합니다.

2013년 11월 15일 금요일

mecab-ko-dic-1.4.3-20131115 배포합니다.

mecab-ko-dic-1.4.3-20131115이 나왔습니다.
  • 띄어쓰기 있는 긍정 지정사(VCP)에 페널티 비용 추가
  • '-받'과 같은 동사 중 필요 없는 동사 제거. 예) 사랑받(다)
  • '-치'와 같은 동사중 필요 없는 동사 제거. 예) 사기치(다)
여기서 받으실 수 있습니다.

2013년 10월 8일 화요일

mecab-ko-dic-1.4.3-20131008 배포합니다.

mecab-ko-dic-1.4.3-20131008이 나왔습니다.
  • 조사와 어미('은', '의')가 문장 처음에 등장하는 오분석 수정. (연결 비용 수정)
  • 사전 추가
여기서 받으실 수 있습니다.

2013년 10월 2일 수요일

mecab-ko-dic-1.4.3-20131002 배포합니다.

mecab-ko-dic-1.4.3-20131002이 나왔습니다.
  • 띄어쓰기 있는 동사/형용사 파생 접미사에 페널티 비용 추가 (동사/형용사 파생 접미사로 오분석 방지)
여기서 받으실 수 있습니다.

2013년 9월 10일 화요일

mecab-ko-dic-1.4.2-20130910 배포합니다.

mecab-ko-dic-1.4.2-20130910이 나왔습니다.
  • 말뭉치에서 특수 기호(SY) 오류 수정하여 재학습
  • SSC(닫는 괄호)와 수사(NR)과의 연결 비용 올림
여기서 받으실 수 있습니다.

2013년 8월 26일 월요일

mecab-ko-dic-1.4.2-20130826 배포합니다.

mecab-ko-dic-1.4.2-20130826이 나왔습니다.
  • 잘못된 기분석 단어를 복합명사 사전으로 옮기거나 출현 비용 수정으로 대체
  • '빛나라'가 '빛/NN+나라/NN'로 오분석 되는 것을 막기 위해 '빛나/VV' 출현 비용 낮춤
여기서 받으실 수 있습니다.

이번 1.4.1, 1.4.2 버전의 릴리스에서 실수가 잦았네요. 기존의 1.4.1, 1.4.2 버전은 사전 형식의 오류로 인해 mecab-ko-lucene-analyzer에서 문제가 있을 수 있으니 사용하시는 분들은 이 버전을 다시 받으시기 바랍니다.

mecab-ko-dic-1.4.2-20130825 배포합니다.

mecab-ko-dic-1.4.2-20130825이 나왔습니다.
  • 단어 끝에 숫자가 붙은 잘못된 의존명사(NNB) 제거
  • 한글로 이루어진 모르는 단어에 대해 'NN'에서 'UNKNOWN'으로 표기하는 것으로 변경
  • '저거나'가 '저/VV+거나/EC'로 오분석되는 것을 막기 위해 '저거'(저것/NP+이/VCP)의 단어 출현 비용 낮춤
여기서 받으실 수 있습니다.

2013년 8월 23일 금요일

mecab-ko-dic-1.4.1-20130823 배포합니다.

mecab-ko-dic-1.4.1-20130823이 나왔습니다.
  • 의존 명사(NNB)에 관한 분석 규칙 변경
  • 접두어 '명'('이름난', '뛰어난'의 뜻을 가지는) 추가
  • 몇몇 단어와 기분석 사전 추가
여기서 받으실 수 있습니다.