출원번호 : 10-2016-0079411 (2016-06-24)
등록번호 : 10-1846461 (2018-04-02)
특허권자 : 서강대학교 산학협력단
요약 : 본 발명은 자동 어휘 생성 방법에 관한 것으로서, 학습 데이터에 해당하는 언어의 음절을 초기 어휘로 설정하는 단계, 상기 학습 데이터에 대한 음절 레벨의 세그멘테이션을 수행하는 단계, 상기 학습 데이터의 공백을 공백표시로 치환하는 단계, 상기 공백이 공백표시로 치환된 초기 세그멘테이션 결과로부터 언어 모델을 생성하는 단계, 상기 언어 모델에 포함된 현재 어휘들을 이용하여 단어를 조합하는 단계, 및 상기 조합된 단어 중, 조합된 단어가 현재 어휘에 포함될 경우, 우도가 최대가 되는 단어를 도출하여, 현재 어휘에 추가하는 단계를 포함하고, 상기 어휘 단어 수의 제한된 범위 내에서 상기 단어를 조합하는 단계 및 상기 우도가 최대가 되는 단어를 도출하여 현재 어휘에 추가하는 단계를 반복하는 것을 특징으로 함으로써, 기 설정된 수만큼의 단어를 가지는 어휘를 자동으로 생성할 수 있고, 생성된 어휘로부터 언어 모델을 성공적으로 생성할 수 있다.
kr00001846461b1p