• Что бы вступить в ряды "Принятый кодер" Вам нужно:
    Написать 10 полезных сообщений или тем и Получить 10 симпатий.
    Для того кто не хочет терять время,может пожертвовать средства для поддержки сервеса, и вступить в ряды VIP на месяц, дополнительная информация в лс.

  • Пользаватели которые будут спамить, уходят в бан без предупреждения. Спам сообщения определяется администрацией и модератором.

  • Гость, Что бы Вы хотели увидеть на нашем Форуме? Изложить свои идеи и пожелания по улучшению форума Вы можете поделиться с нами здесь. ----> Перейдите сюда
  • Все пользователи не прошедшие проверку электронной почты будут заблокированы. Все вопросы с разблокировкой обращайтесь по адресу электронной почте : info@guardianelinks.com . Не пришло сообщение о проверке или о сбросе также сообщите нам.

Fine-Tuning Whisper for Japanese-to-Chinese Speech Translation — A Lightweight Approach

Sascha Оффлайн

Sascha

Заместитель Администратора
Команда форума
Администратор
Регистрация
9 Май 2015
Сообщения
1,483
Баллы
155


OpenAI’s Whisper is well known for its robust multilingual transcription and English-targeted translation. But what if we want to directly translate Japanese speech into Chinese? In this project, I adapted Whisper’s tiny and base models to perform Japanese-to-Chinese speech translation — a task Whisper doesn’t support out of the box.

? Motivation


Japanese media like anime, drama, and films are hugely popular among Chinese-speaking audiences. However, most existing translation pipelines either route through English or require large GPU resources.

I wanted to explore a low-resource solution that:

  • Translates directly from Japanese to Chinese
  • Can run on CPU-only or edge devices
? Dataset: ScreenTalk-JA2ZH


To fine-tune Whisper, I created a domain-specific dataset of Japanese audiovisual content with aligned Chinese subtitles.

  • ? Domains: Japanese films, TV dramas, anime
  • ⏱ Size: 582h train / 73h val / 73h test
  • ? Format: 16kHz mono WAV + Simplified Chinese subtitles
  • ✅ Sentence-level alignment, cleaned and manually verified

? A smaller version is publicly available:

?

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.



?️ Fine-Tuning Setup

HyperparameterValue
Epochs20
Learning rate3e-4
Precisionfp16
Batch size (tiny/base)96 / 64
Eval strategyStep-based
Early stoppingPatience = 5

We fine-tuned both Whisper tiny and Whisper base using the same training pipeline.

? Results

? Whisper Tiny

  • ✅ Lightweight, fast
  • ❌ BLEU ≈ 0.60
  • ❌ Prone to overfitting and semantic drift in long/complex speech
? Whisper Base

  • ✅ BLEU = 0.7179
  • ✅ Stronger generalization and fluency
  • ✅ Suitable for CPU deployment (edge ready)

? BLEU scores steadily improved even when token-level loss increased — highlighting that loss is not always a good proxy for translation quality.

? Key Takeaways

  • Whisper can be adapted for non-English language pairs
  • Domain-specific data (like anime or TV) greatly improves model performance
  • Model capacity matters: Tiny is efficient but not enough for expressive, noisy domains
  • BLEU is limited — future work should include COMET, chrF, or human evals
? What’s Next?

  • Fine-tune larger Whisper models (medium, large)
  • Try LoRA or other parameter-efficient tuning techniques
  • Expand dataset to cover conversational, technical, and news speech
? Try It Out


? Models available on Hugging Face:


Thanks to the open-source Whisper community and everyone working to break language barriers with AI.

? Follow me for more multilingual AI experiments!



Источник:

Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

 
Вверх Снизу