상황

기능

  1. 부정확한 발음 감지
    1. 모델 1 : 불안정한 발화 → 정확한 Text ( 데이터 : 외국인 한국어 발화 음성 데이터 )
    2. 모델 2 : 불안정한 발화 → 부정확한 Text ( 데이터 : 한국인 한국어 발화 음성 데이터 )
  2. 다양한 화자 구별 - 습관, 톤, 반복적인 단어 → 외부 api 이용 (clova speech, Google Speaker Diarization API)
  3. 상황(Context)에 맞는 단어 추천 → 상황 및 감정 태깅 후 LLM api를 통해 단어 추천

서비스 형태

Baseline

RTX 4090 환경에서 최적 음성인식 모델

RTX 4090(24GB VRAM)에서 파인튜닝 가능한 최적 모델:

데이터 셋

인공지능 학습을 위한 외국인 한국어 발화 음성 데이터

한국어 음성