용재


경진_개발


경진_연구


지우


3.1 최신 ASR 모델 분석

Whisper는 OpenAI가 개발한 음성 인식 모델로서 대규모 다국어 데이터를 이용해 훈련되어 높은 일반화 성능을 보인다(Radford et al., 2022). 특히 잡음 환경에서도 안정적인 성능을 나타내지만, 때때로 존재하지 않는 정보를 생성하는 환각(hallucination) 문제가 보고된 바 있다((AP News, 2023)4.

Wav2vec 2.0은 Facebook AI Research가 개발한 모델로 자기 지도 학습 방식을 채택하여 라벨링된 데이터 없이도 우수한 성능을 나타낸다(Baevski et al., 2020)5. 특히 소규모 데이터셋에서도 뛰어난 성과를 보이며, 음성 데이터 표현 능력이 뛰어나 외국인 발음 교정에 적합한 모델로 평가된다.

3.2 발음 교정 및 피드백, 전사 시스템 현황

최근 NAVER Clova Note와 Zoom의 자동 회의록 기능 등 다양한 전사 서비스가 존재한다. Clova Note는 높은 정확도의 한국어 음성 인식과 회의록 자동 생성을 지원하지만, 발음 교정이나 단어 선택과 같은 언어 학습 기능은 제공하지 않는다(NAVER Clova, 2023)6. Zoom 또한 다중 화자 환경에서 자동 회의록 기능을 제공하지만, 사용자의 발음 교정과 상황에 따른 어휘 추천 기능은 갖추고 있지 않다(Zoom, 2023)7.

또한 최근 언어학습을 위한 Duolingo, ELSA Speak, 등의 다양한 회사에서 발음 교정 및 피드백 서비스를 제공하고 있다. Duolingo는 게임화된 방식으로 언어의 읽기, 쓰기, 듣기, 말하기를 종합적으로 제공하는 플랫폼이며, 발음 평가 기능을 제공하나 피드백의 세부성이 부족하고 언어 학습에 중점을 둔다(Duolingo, 2023)8. ELSA Speak는 영어 발음 교정에 특화된 AI 기반 앱으로서 상세한 발음 피드백을 제공하지만, 사용자의 감정이나 상황을 고려한 어휘 선택 지원은 하지 않는다(ELSA Corp, 2023)9.