상황
기능
- 부정확한 발음 감지
- 모델 1 : 불안정한 발화 → 정확한 Text ( 데이터 : 외국인 한국어 발화 음성 데이터 )
- 모델 2 : 불안정한 발화 → 부정확한 Text ( 데이터 : 한국인 한국어 발화 음성 데이터 )
- 다양한 화자 구별 - 습관, 톤, 반복적인 단어 → 외부 api 이용 (clova speech, Google Speaker Diarization API)
- 상황(Context)에 맞는 단어 추천 → 상황 및 감정 태깅 후 LLM api를 통해 단어 추천
서비스 형태
Baseline
RTX 4090 환경에서 최적 음성인식 모델
RTX 4090(24GB VRAM)에서 파인튜닝 가능한 최적 모델:
- Whisper 모델:
- Whisper Medium: 가성비가 좋은 선택. 크기는 약 4GB이며 성능 대비 효율적
- Whisper Large-v2: 최고 성능이지만 모델 크기가 약 10GB로, 파인튜닝 시 배치 사이즈 조정 필요
- Wav2vec 2.0 모델:
- Wav2vec 2.0 XLS-R 300M: 다국어 처리에 강점이 있고 크기도 적절함
- Wav2vec 2.0 XLS-R 1B: 더 높은 성능이지만 메모리 사용량이 증가함
- 최적화 팁:
- LoRA나 QLoRA 같은 파라미터 효율적 파인튜닝 방법 사용
- 그래디언트 체크포인팅 활성화로 메모리 사용량 감소
- 16비트 정밀도(FP16) 또는 8비트 정밀도(INT8) 사용
데이터 셋
인공지능 학습을 위한 외국인 한국어 발화 음성 데이터
한국어 음성