, ,

최대 우도에 기반한 자동 어휘 생성 (Maximum Likelihood-based Automatic Lexicon Generation)


판매 대리인 : 기율특허

전화번호 : 02-782-1004

메일주소 : kiyul@kiyul.co.kr

영문 원어  : The present invention relates to an automatic lexicon generation method, comprising the following steps of: setting a syllable of a language corresponding to learning data as an initial lexicon; performing segmentation of a syllable level corresponding to the learning data; replacing a blank of the learning data with a blank display; generating a language model from an initial segmentation result in which the blank is replaced with the blank display; combining words by using current lexicons included in the language model; and if combined words, among the combined words, are included in the current lexicons, deriving a word of which likelihood is the maximum, and adding the word to the current lexicons. The step of combining the words within a limited range of the number of the lexicons and the step of deriving a word of which likelihood is the maximum, and adding the word to the current lexicons are repeated. Therefore, it is possible to automatically generate a lexicon with a predetermined number of words, and to successfully generate a language model from the generated lexicon.

SKU: 서강대학교 산학협력단 카테고리: , ,

출원번호 : 10-2016-0079411 (2016-06-24)

등록번호 : 10-1846461 (2018-04-02)

특허권자 : 서강대학교 산학협력단

요약 : 본 발명은 자동 어휘 생성 방법에 관한 것으로서, 학습 데이터에 해당하는 언어의 음절을 초기 어휘로 설정하는 단계, 상기 학습 데이터에 대한 음절 레벨의 세그멘테이션을 수행하는 단계, 상기 학습 데이터의 공백을 공백표시로 치환하는 단계, 상기 공백이 공백표시로 치환된 초기 세그멘테이션 결과로부터 언어 모델을 생성하는 단계, 상기 언어 모델에 포함된 현재 어휘들을 이용하여 단어를 조합하는 단계, 및 상기 조합된 단어 중, 조합된 단어가 현재 어휘에 포함될 경우, 우도가 최대가 되는 단어를 도출하여, 현재 어휘에 추가하는 단계를 포함하고, 상기 어휘 단어 수의 제한된 범위 내에서 상기 단어를 조합하는 단계 및 상기 우도가 최대가 되는 단어를 도출하여 현재 어휘에 추가하는 단계를 반복하는 것을 특징으로 함으로써, 기 설정된 수만큼의 단어를 가지는 어휘를 자동으로 생성할 수 있고, 생성된 어휘로부터 언어 모델을 성공적으로 생성할 수 있다.
