라벨이 Korean_ASR인 게시물 표시

Kaldi Tutorial for Korean Model Part 3

이미지
Kaldi Tutorial for Korean Model Part 3 Image source 칼디로 한국어 음성인식 구현하기 파트 3 본 튜토리얼은 칼디를 막 시작하는 초보자들을 대상으로 하고 있으므로 칼디를 어느정도 공부하신 분들에게는 적합하지 않을 수 있습니다. 모든 설명은 다음 깃헙 에 올려진 run.sh 스크립트를 기준으로 진행되면 추가적으로 궁금한 사항은 칼디 공식 홈페이지 나 칼디 구글 헬프 를 이용하길 바랍니다. 본 튜토리얼에서 사용하는 스크립트는 맥과 리눅스(우분투) 환경에서 준비해왔기 때문에 그 외에 환경 (예: 윈도우)에서는 제대로 진행되지 않을수도 있습니다. 따라서 다소 불편하시더라도 이 부분은 최대한 맞춰주시고 튜토리얼을 진행하여 주시기 바랍니다. 튜토리얼에 사용되는 튜토리얼용 서울말 낭독체 코퍼스는 다음 링크 를 통해 받으실 수 있으며, 튜토리얼 진행 도중 훈련에 필수적인 파일들이 제대로 생성되지 않을 상황에 대비해서 몇개의 파일을 미리 생성하여 준비하였으니 필요한 데이터는 그때마다 다운 받으시고 계속해서 진행해 나가시면 되겠습니다. 궁금한 사항이 있으실 경우 개인적인 메일을 보내시기 보다는 아래에 댓글을 다셔서 대부분의 질문이 이 튜토리얼을 보는 모든 분들과 공유되게 해주시기 바랍니다. 데이터 준비 - Data Preparation krs_prep_data.sh 파트 2에서 여러가지 변수들을 셋팅하고 run.sh 훈련을 진행한다면 처음으로 data preparation 단계를 진행하게 된다. 본 단계에서는 krs_prep_data.sh를 실행하고 text, utt2spk, spk2utt, wav.scp, 와 segments 파일을 생성하는데, 이 파일들에 대해서는 파트 1에서 자세히 다루었기 때문에 여기서는 이에 대한 설명을 생략하겠다. 언어 모델 생성 - Language Modeling krs_prep_dict.sh 데이터 준비가 끝났다면 ...

Kaldi Tutorial for Korean Model Part 4

이미지
Kaldi Tutorial for Korean Model Part 4 Image source 칼디로 한국어 음성인식 구현하기 파트 4 본 튜토리얼은 칼디를 막 시작하는 초보자들을 대상으로 하고 있으므로 칼디를 어느정도 공부하신 분들에게는 적합하지 않을 수 있습니다. 모든 설명은 깃헙 에 올려진 run.sh 스크립트를 기준으로 진행되며 추가적으로 궁금한 사항은 칼디 공식 홈페이지 나 칼디 구글 헬프 를 이용하길 바랍니다. 본 튜토리얼에서 사용하는 스크립트는 맥과 리눅스(우분투) 환경에서 준비해왔기 때문에 그 외에 환경 (예: 윈도우)에서는 제대로 진행되지 않을수도 있습니다. 따라서 다소 불편하시더라도 이 부분은 최대한 맞춰주시고 튜토리얼을 진행하여 주시기 바랍니다. 튜토리얼에 사용되는 튜토리얼용 서울말 낭독체 코퍼스는 다음 링크 를 통해 받으실 수 있으며, 튜토리얼 진행 도중 훈련에 필수적인 파일들이 제대로 생성되지 않을 상황에 대비해서 몇개의 파일을 미리 생성하여 준비하였으니 필요한 데이터는 그때마다 다운 받으시고 계속해서 진행해 나가시면 되겠습니다. 궁금한 사항이 있으실 경우 개인적인 메일을 보내시기 보다는 아래에 댓글을 다셔서 대부분의 질문이 이 튜토리얼을 보는 모든 분들과 공유되게 해주시기 바랍니다. Monophone Training and Decoding steps/train_mono.sh 음향모델을 만들기 위한 첫 단계가 바로 monophone 훈련인데, 이곳에서는 우리가 준비한 오디오와 텍스트 파일을 이용해서 각 개별 음소에 대한 확률값을 훈련한다. 참고로 훈련에 사용하는 음소들은 연구자의 주관에 따라 그 개수와 모양이 달라질 수 있으며, 현재 본 튜토리얼에서는 총 195개의 음소를 사용하고 있다. phones.txt는 nonsilence.txt와 silence.txt에 정의된 음소들을 모두 가져온 뒤, 그 뒤에 B, I, E, S를 붙여서 4가지 타입의 음소를 새롭게 생성...

Kaldi Tutorial for Korean Model Part 2

이미지
Kaldi Tutorial for Korean Model Part 2 Image source 칼디로 한국어 음성인식 구현하기 파트 2 본 튜토리얼은 칼디를 막 시작하는 초보자들을 대상으로 하고 있으므로 칼디를 어느정도 공부하신 분들에게는 적합하지 않을 수 있습니다. 모든 설명은 다음 깃헙 에 올려진 run.sh 스크립트를 기준으로 진행되면 추가적으로 궁금한 사항은 칼디 공식 홈페이지 나 칼디 구글 헬프 를 이용하길 바랍니다. 본 튜토리얼에서 사용하는 스크립트는 맥과 리눅스(우분투) 환경에서 준비해왔기 때문에 그 외에 환경 (예: 윈도우)에서는 제대로 진행되지 않을수도 있습니다. 어차피 칼디를 진행하기 위해서는 리눅스 환경이 갖춰져야 하기 때문에 이 부분은 불편하시더라도 최대한 맞춰주시고 튜토리얼을 진행하여 주시기 바랍니다. 튜토리얼에 사용되는 튜토리얼용 서울말 낭독체 코퍼스는 아래 링크를 통해 받으실 수 있으며, 튜토리얼 진행 도중 훈련에 필수적인 파일들이 제대로 생성되지 않을 상황에 대비해서 몇개의 파일을 미리 생성하여 준비하였으니 필요한 데이터는 그때마다 다운 받으시고 계속해서 진행해 나가시면 되겠습니다. 궁금한 사항이 있으실 경우 개인적인 메일을 보내시기 보다는 아래에 댓글을 다셔서 대부분의 질문이 이 튜토리얼을 보는 모든 분들과 공유되게 해주시기 바랍니다. 훈련 진행하기 파트 1을 진행했다면 kaldi로 음성인식을 구현하기 위해 기본적으로 필요한 데이터와 필수자료에 대한 이해가 어느정도 진행되었다고 할 수 있다. (만약 파트 1에 대한 이해가 완료되지 않았다면 파트 1에 대한 이해 및 준비가 확실히 끝나기 전까지 이번 파트 2로 넘어오지 않기를 바란다.) 이제는 주어진 run.sh을 차근차근 보면서 훈련을 진행해 나갈 것이다. 기본적인 변수 설정하기 훈련을 진행하기 전 기본적으로 설정해야하는 변수에 대해 살펴보자. 변수들 중 굵게 표시된 것들은 필요에 따라 수정이 필요한 것...

Kaldi Tutorial for Korean Model Part 1

이미지
Image source 칼디로 한국어 음성인식 구현하기 파트 1 본 튜토리얼은 칼디를 막 시작하는 초보자들을 대상으로 하고 있으므로 칼디를 어느정도 공부하신 분들에게는 적합하지 않을 수 있습니다. 모든 설명은 다음 깃헙 에 올려진 run.sh 스크립트를 기준으로 진행되면 추가적으로 궁금한 사항은 칼디 공식 홈페이지 나 칼디 구글 헬프 를 이용하길 바랍니다. 본 튜토리얼에서 사용하는 스크립트는 맥과 리눅스(우분투) 환경에서 준비해왔기 때문에 그 외에 환경 (예: 윈도우)에서는 제대로 진행되지 않을수도 있습니다. 어차피 칼디를 진행하기 위해서는 리눅스 환경이 갖춰져야 하기 때문에 이 부분은 불편하시더라도 최대한 맞춰주시고 튜토리얼을 진행하여 주시기 바랍니다. 튜토리얼에 사용되는 튜토리얼용 서울말 낭독체 코퍼스는 아래 링크를 통해 받으실 수 있으며, 튜토리얼 진행 도중 훈련에 필수적인 파일들이 제대로 생성되지 않을 상황에 대비해서 몇개의 파일을 미리 생성하여 준비하였으니 필요한 데이터는 그때마다 다운 받으시고 계속해서 진행해 나가시면 되겠습니다. 궁금한 사항이 있으실 경우 개인적인 메일을 보내시기 보다는 아래에 댓글을 다셔서 대부분의 질문이 이 튜토리얼을 보는 모든 분들과 공유되게 해주시기 바랍니다. 데이터 준비 서울말 낭독체 데이터 구하기 훈련을 하기 위해 먼저 데이터를 준비해야 한다. 우리는 국립국어원에서 제공하는 서울말 낭독체를 이용해서 실험을 진행할 것이다. 따라서 다음 링크 에서 “small_krs” 폴더를 먼저 받기를 바란다. 혹시 전체 데이터를 다운 받아 훈련을 진행하고자 한다면 다음 링크 를 통해 국립국어원으로 접속하여 공지사항을 확인한 후 데이터를 받으면 되겠다. 본 훈련의 빠른 진행을 위해 정제된 데이터를 제공해 주었지만 데이터를 훈련하는 것 만큼이나 중요한 것이 바로 잘 정제된 데이터를 준비하는 것이다. 정제 이전의 서울말 낭독체는 꽤나 많은 수 작업을 필요로 하기에 미리 데이터를 잘 정리하는 작업...

한국어 음성인식 (Korean Automatic Speech Recognition)

이미지
한국어 음성인식 (Korean Automatic Speech Recognition) 음성인식설명 동영상 음성인식(Automatic Speech Recognition)이란 인간이 발화하는 언어에 대해서 기계가 인식하고 그 발화문장을 텍스트 형식으로 나타내 주는 것을 의미합니다. 쉽게 말해서 제가 "나 지금 학교에 왔어"라고 말한다면 기계는 그 말을 듣고 지금 말한사람이 “나 지금 학교에 왔어” 라고 말했어! 라고 인식하고 텍스트 형식으로 적어주는 것이라 할 수 있습니다. 인간의 입장에서 생각해보면 음성인식은 그다지 어려워 보이지 않을 수 있습니다만 사실 기계입장에서 음성인식은 꽤나 어려운 문제입니다. 좀더 이해하기 쉽도록 여러분을 기계의 입장이라 생각하고 설명해 보겠습니다. 지금 여러분(한국어만 써온 사람이라 가정)은 새로운 언어(영어)를 배워서 그것이 어떠한 문장이였는지를 종이에 써서 결과물로 제출해야 하는 상황입니다.(음성인식 일을 하게 되는 거죠) 이때 첫 번째로 고려할 사항은 배워야 할 언어 즉 외국어에 대해서 들을 줄 알아야 하는 것입니다. 영어를 처음 접하는 사람입장에서 영어를 모국어로 사용하는 화자의 모든 말 한마디 한마디는 언어라기보다 차라리 외계어라고 생각할 것입니다. 이러한 이유는 바로 자신이 사용하는 언어에서는 사용하지 않던 발음이 영어에 존재하기 때문인데요. 예를들어 'r’이라던가 'th’라는 소리는 한국어에 존재하지 않기 때문에, 영어를 처음 접하는 한국인에게는 이 낯선 소리들로 인해 자신이 이상한 외계어를 듣고 있다고 느끼게 되는 것입니다. 이러한 문제점은 어떻게 해결하면 될까요? 생각보다 간단합니다. 그냥 계속해서 많은 양의 영어음성을 들려주면 되는 겁니다. 그러다보면 자연스럽게 영어의 모든 소리들에 대해 익숙해 지게 되는거죠. 그리고 음성인식에서는 이러한 훈련을 통해 음향모델 (Speech model)을 구축하게 됩니다. 이렇게 영어의 소리에 대해 적응하게 되었다면 ...