• Что бы вступить в ряды "Принятый кодер" Вам нужно:
    Написать 10 полезных сообщений или тем и Получить 10 симпатий.
    Для того кто не хочет терять время,может пожертвовать средства для поддержки сервеса, и вступить в ряды VIP на месяц, дополнительная информация в лс.

  • Пользаватели которые будут спамить, уходят в бан без предупреждения. Спам сообщения определяется администрацией и модератором.

  • Гость, Что бы Вы хотели увидеть на нашем Форуме? Изложить свои идеи и пожелания по улучшению форума Вы можете поделиться с нами здесь. ----> Перейдите сюда
  • Все пользователи не прошедшие проверку электронной почты будут заблокированы. Все вопросы с разблокировкой обращайтесь по адресу электронной почте : info@guardianelinks.com . Не пришло сообщение о проверке или о сбросе также сообщите нам.

How AI Tells the Difference Between “Ate” and “Eight” in Speech Recognition

Lomanu4 Оффлайн

Lomanu4

Команда форума
Администратор
Регистрация
1 Мар 2015
Сообщения
1,481
Баллы
155
Imagine someone says a word out loud: “eight” or “ate”. To a human ear, they sound almost identical, most people couldn’t tell them apart without context. So how does an AI system like Google Assistant or Siri know what the speaker meant? That’s where the beauty of speech recognition and natural language processing (NLP) kicks in.


Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.



Let’s understand it down step by step:

1. AI Doesn’t Hear, It Sees Sound



Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.



When you speak, your voice creates vibrations in the air. A microphone picks up those sound waves and converts them into digital data, essentially, a stream of numbers that represent how your voice changes over time.

But AI doesn’t listen to this data the way humans do.


Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.



Instead, it transforms it into a spectrogram, a visual map of sound over time. It’s like a heatmap that shows:

  • Pitch (high or low sounds)
  • Intensity (how loud)
  • Timing (when sounds happen)

Even though “ate” and “eight” sound the same to us, their spectrograms have slightly different patterns , due to subtle pronunciation cues.

2: Acoustic Modeling with Deep Neural Networks


The extracted features are passed into acoustic models, typically built using deep neural networks (DNNs) such as:

  • Convolutional Neural Networks (CNNs) for capturing spatial correlations in spectrograms
  • Recurrent Neural Networks (RNNs) or LSTMs/GRUs for modeling temporal dependencies
  • Transformer-based encoders (like wav2vec 2.0) for large-scale pretraining directly on raw waveforms

These models predict phoneme sequences or senone probabilities (subphonetic states), effectively transforming raw audio into likely linguistic units.

Training these networks requires supervised learning on massive paired datasets of audio and transcripts.

The loss function typically used is Connectionist Temporal Classification (CTC) or cross-entropy loss when alignment is known.

3: The Contextual Language Models


Even with a powerful acoustic model, ambiguity remains. That’s where language modeling kicks in.

Language models estimate the probability distribution over word sequences.

Traditional systems used n-gram models, but modern speech recognizers now integrate neural LMs like:

  • RNN-based LMs
  • Transformer LMs (e.g., BERT, GPT, or T5 variants)
  • Shallow fusion or deep fusion approaches with end-to-end models

These models apply contextual reasoning:

Input: “I already ____ lunch.”
Language model prediction:

  • P(“ate”) = 0.93
  • P(“eight”) = 0.02

Such context sensitivity ensures the transcript makes syntactic and semantic sense, not just phonetic.

4: Decoding with Confidence Scores



Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.


Modern speech recognition systems often rely on beam search decoders that integrate acoustic and language model scores.

Each hypothesis (possible sentence) is assigned a confidence score, and the one with the highest combined probability is chosen.

Confidence scores are critical in interactive systems (like Alexa or Google Assistant), where the system may

  • Ask for confirmation if scores are low
  • Provide alternatives
  • Defer to fallback queries (e.g., web search)
5: An Everyday Analogy: Cocktail Party Problem


Imagine you’re at a noisy party trying to make sense of what someone said. You:

  • Look at their lips (visual cues)
  • Rely on sentence context (“I already ___”)
  • Use prior knowledge of your conversation

AI mimics this with:

  • Spectrograms instead of eyes
  • Language models instead of memories
  • Probabilistic scoring instead of instinct

Building intelligent systems that truly “understand” human input is what I do.

If you’re working on voice interfaces, LLMs, or applied machine learning and could use another sharp mind on the team, I’d love to collaborate.

Open to contract work, full-time roles, or just a great conversation.


Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.



TL;DR: How AI Tells “Eight” from “Ate”.


Audio Feature Extraction: Converts sound waves into feature-rich spectrograms or MFCCs.
Acoustic Modeling: Neural networks map audio to likely phonemes or word tokens.
Language Modeling: Contextual transformers predict the most probable word based on the sentence.
Confidence Scoring: Measures how sure the system is about each word or phrase.

Building intelligent systems that truly “understand” human input is what I do.

If you’re working on voice interfaces, LLMs, or applied machine learning and could use another sharp mind on the team, I’d love to collaborate.

Open to contract work, full-time roles, or just a great conversation.


Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.




Пожалуйста Авторизируйтесь или Зарегистрируйтесь для просмотра скрытого текста.

 
Вверх Снизу