본 제안서는 외국인 한국어 학습자를 위한 인공지능 기반 발음 교정 웹 애플리케이션 개발 프로젝트를 제안한다. 최근 음성 인식 및 자연어 처리 기술의 발전과 함께, 기존 ASR 시스템이 주로 원어민 데이터를 기반으로 학습되어 외국인의 부정확한 발음을 효과적으로 인식하는 데 한계가 있었던 점을 보완하기 위해, 본 프로젝트에서는 두 개의 특화된 음성인식 모델을 개발한다.
첫 번째 모델은 외국인의 불안정한 한국어 발화를 정확한 텍스트로 변환하는 교정 모델로, 외국인-한국어 발화 데이터를 활용하여 발음 오류를 진단하고 맞춤형 피드백을 제공한다. 두 번째 모델은 동일 발화를 한국인의 청각 관점에서 그대로 텍스트화하여, 발음 오류 및 억양의 불안정을 보다 정확하게 분석한다. 또한, 시스템은 다중 화자 환경에서 화자 구분(Speaker Diarization) 기능을 통해 각 화자의 발화 패턴을 개별적으로 분석하고, 상황에 맞는 단어 및 표현 추천 기능을 포함하여 학습자의 커뮤니케이션 능력 향상을 지원한다.
본 프로젝트는 10주간의 워터폴 개발 방법론에 따라 진행되며, 프론트엔드(React), 백엔드(Django), AI 모델 개발(PyTorch)로 구분하여 구현한다. 주요 성과물로는 웹 애플리케이션, 맞춤형 음성 인식 모델, 그리고 모델 추론 API가 있으며, 이를 통해 외국인 학습자들에게 기존 ASR 시스템보다 향상된 인식률과 효과적인 발음 교정 피드백을 제공함으로써, 발표 및 회의 상황에서의 의사소통 능력 향상에 기여할 것으로 기대된다.
2.1 연구/프로젝트 배경 및 필요성
한국어는 다양한 자음과 모음의 발음 체계를 가지며, 특히 외국인 학습자들에게는 발음의 정확성이 한국어 학습의 주요 장애물로 작용한다(이금희, 2020)[i]. 외국인 학습자는 모국어의 영향으로 인해 받침 발음, 장단음 구별, 연음 현상 등에서 어려움을 겪으며, 이러한 오류는 의미 전달의 혼선을 초래할 수 있다. 그러나 기존 ASR 기술은 원어민 발화 데이터를 주로 학습하였기에 외국인의 비표준적인 발음이나 억양을 제대로 반영하지 못하는 문제점이 있다(Radford et al., 2022)[ii]. 또한, 한국어의 풍부한 어휘 체계와 상황별 미묘한 표현 차이로 인해, 학습자들이 적절한 단어 선택에 어려움을 겪는 문제도 존재한다(국립국어원, 2023)[iii].
이와 같은 문제를 해결하고, 발표나 회의 등 공식적인 상황에서의 의사소통 능력을 향상시키기 위해, 외국인 학습자 특화 음성 인식 및 피드백 시스템의 개발이 필요하다.
2.2 문제 정의 및 현 상황 분석
기존 음성 인식 시스템의 한계점은 다음과 같다:
2.3 연구/프로젝트 목표 및 기여점
본 연구는 이러한 문제를 해결하기 위해 외국인의 발음 특성을 적극적으로 반영한 음성 인식 시스템 개발을 목표로 한다.
구체적인 목표는 다음과 같다: