Kaldi Tutorial for Korean Model Part 3
Kaldi Tutorial for Korean Model Part 3 Image source 칼디로 한국어 음성인식 구현하기 파트 3 본 튜토리얼은 칼디를 막 시작하는 초보자들을 대상으로 하고 있으므로 칼디를 어느정도 공부하신 분들에게는 적합하지 않을 수 있습니다. 모든 설명은 다음 깃헙 에 올려진 run.sh 스크립트를 기준으로 진행되면 추가적으로 궁금한 사항은 칼디 공식 홈페이지 나 칼디 구글 헬프 를 이용하길 바랍니다. 본 튜토리얼에서 사용하는 스크립트는 맥과 리눅스(우분투) 환경에서 준비해왔기 때문에 그 외에 환경 (예: 윈도우)에서는 제대로 진행되지 않을수도 있습니다. 따라서 다소 불편하시더라도 이 부분은 최대한 맞춰주시고 튜토리얼을 진행하여 주시기 바랍니다. 튜토리얼에 사용되는 튜토리얼용 서울말 낭독체 코퍼스는 다음 링크 를 통해 받으실 수 있으며, 튜토리얼 진행 도중 훈련에 필수적인 파일들이 제대로 생성되지 않을 상황에 대비해서 몇개의 파일을 미리 생성하여 준비하였으니 필요한 데이터는 그때마다 다운 받으시고 계속해서 진행해 나가시면 되겠습니다. 궁금한 사항이 있으실 경우 개인적인 메일을 보내시기 보다는 아래에 댓글을 다셔서 대부분의 질문이 이 튜토리얼을 보는 모든 분들과 공유되게 해주시기 바랍니다. 데이터 준비 - Data Preparation krs_prep_data.sh 파트 2에서 여러가지 변수들을 셋팅하고 run.sh 훈련을 진행한다면 처음으로 data preparation 단계를 진행하게 된다. 본 단계에서는 krs_prep_data.sh를 실행하고 text, utt2spk, spk2utt, wav.scp, 와 segments 파일을 생성하는데, 이 파일들에 대해서는 파트 1에서 자세히 다루었기 때문에 여기서는 이에 대한 설명을 생략하겠다. 언어 모델 생성 - Language Modeling krs_prep_dict.sh 데이터 준비가 끝났다면 ...