한국어 음성인식 (Korean Automatic Speech Recognition)

11월 05, 2016

한국어 음성인식 (Korean Automatic Speech Recognition)

음성인식설명 동영상

음성인식(Automatic Speech Recognition)이란 인간이 발화하는 언어에 대해서 기계가 인식하고 그 발화문장을 텍스트 형식으로 나타내 주는 것을 의미합니다. 쉽게 말해서 제가 "나 지금 학교에 왔어"라고 말한다면 기계는 그 말을 듣고 지금 말한사람이 “나 지금 학교에 왔어” 라고 말했어! 라고 인식하고 텍스트 형식으로 적어주는 것이라 할 수 있습니다. 인간의 입장에서 생각해보면 음성인식은 그다지 어려워 보이지 않을 수 있습니다만 사실 기계입장에서 음성인식은 꽤나 어려운 문제입니다.

좀더 이해하기 쉽도록 여러분을 기계의 입장이라 생각하고 설명해 보겠습니다.

지금 여러분(한국어만 써온 사람이라 가정)은 새로운 언어(영어)를 배워서 그것이 어떠한 문장이였는지를 종이에 써서 결과물로 제출해야 하는 상황입니다.(음성인식 일을 하게 되는 거죠) 이때 첫 번째로 고려할 사항은 배워야 할 언어 즉 외국어에 대해서 들을 줄 알아야 하는 것입니다. 영어를 처음 접하는 사람입장에서 영어를 모국어로 사용하는 화자의 모든 말 한마디 한마디는 언어라기보다 차라리 외계어라고 생각할 것입니다.

이러한 이유는 바로 자신이 사용하는 언어에서는 사용하지 않던 발음이 영어에 존재하기 때문인데요. 예를들어 'r’이라던가 'th’라는 소리는 한국어에 존재하지 않기 때문에, 영어를 처음 접하는 한국인에게는 이 낯선 소리들로 인해 자신이 이상한 외계어를 듣고 있다고 느끼게 되는 것입니다. 이러한 문제점은 어떻게 해결하면 될까요? 생각보다 간단합니다. 그냥 계속해서 많은 양의 영어음성을 들려주면 되는 겁니다. 그러다보면 자연스럽게 영어의 모든 소리들에 대해 익숙해 지게 되는거죠. 그리고 음성인식에서는 이러한 훈련을 통해 음향모델 (Speech model)을 구축하게 됩니다.

이렇게 영어의 소리에 대해 적응하게 되었다면 두 번째로 고려할 사항은 언어의 자연스러운 결합성을 찾는 것입니다. 언어의 자연스러운 결합성이라 함은 특정 단어 뒤에 따라오는 단어의 적합성을 의미합니다. 예를 들어 "나는 학교에 OO."라는 문장이 있다고 할 때, 여러분들은 저 OO에 들어갈 단어로 어떤것을 생각할 수 있습니까? 여러분은 아마도 “갔어”, “간다”, “안가”, “못가” 등등의 단어는 생각했겠지만 “슬퍼”,"찼어"와 같은 단어는 생각하지 않았을 것입니다.(하더라도 매우 낮은 확률일 것입니다) 위와같은 언어의 자연스러운 결합성은 여러분들의 일상생활속에서 이미 터득하고 사용하고 있습니다.

가끔 여러분의 친구가 “야 그 음식점 멋있더라” 라고 말하더라도 당신은 “야 그 음식점 맛있더라” 라고 들을수 있고, “야 그 음시정(사람이름) 멋있더라” 라고 이해할 수도 있습니다. 말한 사람은 정확히 "야 그 음식점 멋있더라"라고 이야기 했음에도 불구하고 듣는 사람은 다양한 가능성으로 해석할 수가 있게 되는 것이죠. 이때문에 언어의 자연스러운 결합성은 중요한 훈련사항이고 이는 음성인식에서 언어모델 (Language model)을 구축하게 됩니다. 음향모델처럼 언어모델도 많은 데이터를 통해 훈련해서 언어에 익숙하게 만들어줘야 함으로 방대한 언어데이터를 필요로 합니다.

이처럼 음성인식은 음향모델(Speech model)과 언어모델(Language model)을 잘 훈련시키는 것이 목적이며, 이 두 모델이 잘 훈렴됨에 따라 음성인식의 성능도 향상되게 됩니다. 음성인식을 구현하기 위한 툴은 주로 HTK가 사용되어왔지만 저는 Kaldi를 이용하였으며, 언어모델을 위해서 ‘srilm’ 툴을 사용하였습니다.

Kaldi: http://kaldi-asr.org/
srilm: http://www.speech.sri.com/projects/srilm/

모델 훈련에 대한 주요 사항들은 다음 포스팅에서 언급하겠으며 지금은 음성인식 데모를 보여드리도록 하겠습니다. 우선 저는 음향모델 훈련을 위해서 서울말 낭독체를 이용하여 117명분(대략 1400시간)의 발화녹음자료를 사용하였으며, 언어모델의 경우 음향모델을 위해 사용한 서울말 낭독체입니다.

음향모델: 서울말 낭독체, 언어모델: 서울말 낭독체

Hyungwon Yang

Unknown2017년 1월 16일 오후 6:19
안녕하세요. 음성인식, 딥러닝 분야를 연구하고 있는 대학원생입니다.
구글 검색 도중에 양형원님의 포스트 글을 잘 보았습니다.
HTK 이외 Kaldi Toolkit을 이용하셨는데, HTK처럼 인식기를 구현하는데 필요한 Script와 인식기 구현은 이해뿐만아니라 활용까지 해보았는데, Kaldi 툴킷은 어떤 Script를 필요로하는지 Kaldi 홈페이지에서 하나씩 보더라도 이해가 잘 가지 않습니다..
양현원님께서 보시는 Kaldi 관련 자료나 Kaldi Toolkit을 이용하여 인식과정까지 정리해놓은 자료가 있다면 공유해주시면 안될까요..?
무례하게 댓글 달아서 죄송합니다..(__)
답글삭제
답글
Unknown2017년 7월 5일 오후 2:47
작성자가 댓글을 삭제했습니다.
답글삭제
답글
Unknown2017년 7월 5일 오후 2:50
음성 인식에 대해 공부 하고 있는 대학생 입니다.

이전에 Kaldi의 example중 librespeech라는 것을 돌려 보았는데 어디서 잘못 되었는지 gpu를 사용하지 않고 cpu를 사용하더군요.

현재 시스템은 TITANX (파스칼 이전 버전)4대 병렬로 사용중이며 NVIDIA 드라이버는 375.39버전 CUDA는 8.0사용중 입니다.

혹 문제점이 무엇인지 알고 계신가 해서 덧글을 남깁니다.

실례가 안된다면 현재 사용중인 시스템의 구성도 알고 싶습니다.

감사합니다.

-------------------------------------------------------------------------------------
Sanghong Kim, Bachelor Course
Department of Electronic Engineering Inha University
916 Hi-tech Center, 100 Inha-Ro, Nam-Gu
Incheon, 22212, South Korea
HP: +82-10-3128-0920 | ikdk5559@naver.com
sanghong.kim@inha.edu
-------------------------------------------------------------------------------------
답글삭제
답글
Unknown2017년 7월 9일 오후 1:34
아 그렇군요! path에 있어서 어떤것으로 대체 하여야 하는지 고민하고 있었습니다.

감사합니다!
답글삭제
답글
온보딩2017년 7월 13일 오후 8:23
음성인식 모델리을 해보고 싶은 대학생입니다. 이제 막 입문한 상태라 이것저것 알아보는 도중에 이 글을 읽었는데 도움이 많이 됐습니다.
모델링을 할 때 Kaldi 말고 Caffe프레임워크로도 구현 가능한가요?
그리고 데모영상에서 구현 하신것들 따라서 해보고 싶은데 코드 공유가 가능한가요!!?ㅠㅠ
답글삭제
답글
Unknown2017년 9월 1일 오전 10:18
안녕하세요. 5월인가 대구에서 한번 뵈었죠. ^^
한국어 음성인식 하시는분들 많이 모여계신 페이스북 그룹이 있어 소개드립니다. 남교수님 연구실분들도 같이 의견교류하시면 어떨까합니다.
https://www.facebook.com/groups/soundly/
답글삭제
답글
Unknown2017년 10월 8일 오후 9:31
안녕하세요 정말 자세한 자료 잘 보고 있습니다 감사합니다
아직 따라해보기 수준밖에 안되는 학생입니다. 근데 따라해 보는 도중 여러 문제를 해결하다 마지막 쯤에 막혔습니다.
root@ubuntu:/home/jsman/Korean_ASR-master/Korean_ASR-master# . run_asr.sh krs
ASR model: krs
path.sh is newly wirtten.
Start recording...

Input File : 'default' (alsa)
Channels : 1
Sample Rate : 16000
Precision : 16-bit
Sample Encoding: 16-bit Signed Integer PCM

In:0.00% 00:00:08.19 [00:00:00.00] Out:123k [ =|= ] Clip:0 ^C
Aborted.
Extracting the features from the input data...
run.pl: job failed, log is in tmp/log/make_mfcc_trans_data.1.log
Decoding the recorded speech.
run.pl: job failed, log is in tmp/log/decode.1.log

이렇게 run.pl 에서 실행이 안되구 로그가 저기에 있다는 말이 나옵니다.
그래서 Kaldi/egs/wsj/s5/utils/run.pl 로 가서
run.pl의 어느 부분에 오류가 났나 확인해보니
마지막 263줄부터 if문에서 오류가 난 것을 확인했습니다 근데 코드 분석에 어려움을 겪고있어서 질문 드립니다
왜 오류가 나는 것인지 알려주실 수 있나요 ?
답글삭제
답글
Unknown2017년 11월 13일 오후 10:01
안녕하세요. 음성인식에 대해서 막 공부하기 시작한 학생입니다. 제가 github에서 이 코드를 실행을 해보았는데 녹음하는 과정이 없이 바로 결과로 넘어가서 그런데 혹시 꼭 mac이나 우분투환경에서 가능한것인지 궁금해서 질문드립니다....
답글삭제
답글
Unknown2018년 1월 25일 오전 10:13
안녕하세요. 음성인식을 갓 시작한 대학생입니다!!! 혹시 무례가 안된다면 질문좀 해도 될까요???????? 그 음향모델과 언어모델을 다른 툴에서 만드셨는데 그런 이유가 있는건가요???!!! 감사합니다!!
답글삭제
답글
Unknown2018년 2월 27일 오후 12:27
안녕하세요... 헤매고 헤매다 찾은 이 페이지가 정말 많은 도움이 되네요. 정말 감사합니다! 저는 HTK를 gesture recognition에 활용하고 싶어서 맨땅에 헤딩하는 심정으로 처음부터 파고 있는데요, 가능은 한 것인지 사실 확신이 없어서요... 혹시 어찌 생각하시는지 여쭤도 될까요? 혹은 비슷한 경우를 보신적이 있다면 링크 공유나 조언 부탁드립니다. 다시한번 감사해요 ^^
답글삭제
답글
Unknown2018년 2월 27일 오후 7:31
안녕하세요. 올려주신 소스 덕분에 많은 도움 받았습니다.
너무 너무 감사드립니다.
그런데, tutorial 파트에서 올려두신 음성 파일은 잘 인식되지만, 제 목소리는 인식이 잘 안되고 있습니다.
다양한 목소리로 학습을 시켜서 모델을 만들고 싶은데, 어찌해야 할지 모르겠습니다.
train 관련된 sh, py 파일이 많아서 가이드 좀 주셨으면 하고 글 남깁니다.
답글삭제
답글
Unknown2018년 4월 30일 오전 5:42
작성자가 댓글을 삭제했습니다.
답글삭제
답글
Unknown2018년 4월 30일 오전 11:49
안녕하세요! 음성인식에 관심을 갖고 공부하고 있는 학생입니다! 올려주신 소스와 잘 정리된 페이지 덕분에 많은 도움을 받았습니다! 감사합니다 :] 다름이 아니라 튜토리얼대로 asr를 해보는 중인데 sh run_asr.sh krs를 실행하면 ASR model: krs
run_asr.sh: line 55: .: path.sh: file not found 라는 에러가 떠서 이유를 알 수 있을까 글 남깁니다! 답변주시면 감사하겠습니다ㅠㅠ
답글삭제
답글