Примитивное распознание речи в delphi

Vlad_Bohdan · #1 17.09.2011, 18:55

Уважаемые господа-программисты!

Я хочу реализовать простейшее распознавание 2-3 команд в программе. То есть пользователь говорит в микрофон, а программа сравнивает записанный звук со списком команд: допустим их будет 2: старт и стоп. И в зависимости от того, что больше похоже, выполняет определённое действие.

Подскажите, как можно такое реализовать?????

NumLock · #2 17.09.2011, 19:06

смотри в сторону Speech API.

Цитата:

Microsoft Speech Application Programming Interface (Speech API, SAPI) — библиотека программ для Windows, позволяющая распознавать и синтезировать голос в приложениях для этой операционной системы.

Vlad_Bohdan · #3 17.09.2011, 19:11

Это я понимаю, но не могли бы вы подробнее расписать как это осуществить???
(Все нужные компоненты уже установлены)

Страдалецъ · #4 17.09.2011, 19:18

Читайте себе на здоровье.

Vlad_Bohdan · #5 17.09.2011, 19:46

Всё это конечно очень хорошо... однако там речь идёт о том, чтобы программа озвучивала текст, мне же требуется народ: не текст в речь, а речь в текст, пусть и с 2-3мя командами.

Страдалецъ · #6 17.09.2011, 20:46

Ладно, надеюсь меня не накажут за данную ссылку. Почитайте, возможно все что вам нужно там есть. А вообще поиском пользуйтесь, почему я эту инф унашел сразу, а вы нет?

AlexSku · #7 17.09.2011, 21:28

SpeechAPI работает в обоих направлениях. И они описаны в книге Буторина (у меня книжный вариант "MS Agent и SpeechAPI в Delphi"). Правда, говорить компьютер может на любом языке, а вот распознавание (dll сторонних фирм) предлагается пока только на английском (плюс китайский, японский). Поэтому у вас два варианта: или говорить по-английски "Stop", "Start" (к счастью, отличий нет кроме акцента), ну и добавим "Hello" или ввести в словарь свои слова (для последнего случая): "Privet".
Вот, кстати, фрагмент программы из книги Буторина, которая по командам "red", "green", "blue" меняет цвет формы:

Код:

function TVCmdNotifySink.CommandRecognize(dwID: DWORD; pvCmdName: PVCmdNameA; pdwFlags: PDWORD;
      dwActionSize: DWORD; pAction: pointer; dwNumLists: DWORD;
      pszListValues: PAnsiChar; pszCommand: PAnsiChar): HResult; stdcall;
begin
  Result := S_OK;
  fForm.AddLog(Format('Команда: App = %s, State = %s, Cmd = %s, Id = %d',
    [pvCmdName.szApplication, pvCmdName.szState, pszCommand, dwId]));
  case dwID of
    1: fForm.Color := clRed;
    2: fForm.Color := clGreen;
    3: fForm.Color := clBlue;
  end
end;

Для товарищей, любящих русский, можно было ввести команды "Krasnyi", "Zelyonyi", "Siniy" (я не пробовал)

AlexSku · #8 17.09.2011, 21:44

При работе с распознаванием всплывут ещё такие проблемы:
1) шум. Вы используете два режима. Для включения режима распознавания надо щёлкнуть кнопку или сказать какое-нибудь специальное слово (у MS Agent'а это может быть его имя или команда "Слушай!"). Как только команды поданы надо опять переводить компьютер в режим "глухого". Есть ещё вариант, каждую команду подтверждать, правда, я с этим замучился. Агент правильно понимал команду, но часто не не понимал подтверждения и поэтому команда не исполнялась.

2) Распознавание идёт с ошибками, поэтому надо изучить процедуру обучения (для конкретного голоса).

Vlad_Bohdan · #9 17.09.2011, 22:40

AlexSku, а какой компонент нужно вынести на форму??

angvelem · #10 17.09.2011, 23:03

Лень, конечно, двигатель прогресса, но не до такой же степени, чтобы не разобраться самому или прочитать справку.

AlexSku · #11 17.09.2011, 23:42

Цитата:

Сообщение от Vlad_Bohdan

AlexSku, а какой компонент нужно вынести на форму??

Никаких особых не нужно. Нужно только подключения к COM-объектам (интерфейсы).
Вот скриншот (кстати, в Висте надо запускать от имени Администратора):

VoiceCmd.jpg

Vlad_Bohdan · #12 18.09.2011, 19:57

Хорошо.
И ещё вопрос не по распознаванию. а по синтезу речи. скинул очень хороший исходник подобной программы. Однако проблема: в uses перечислен speech и его выделяет компилятор как ошибку, то есть что то недоустановлено. подскажите, что именно:
выводит ошибку "отсутствует файл speech.dcu"

AlexSku · #13 18.09.2011, 20:56

У Буторина есть такой файл. Вот, посылаю:

Speech.zip

Vlad_Bohdan · #14 18.09.2011, 22:58

спасибо, посмотрим)

ALexandr555 · #15 02.10.2011, 17:29

Speech API хорошая штука, но вот нету документации по поводу Grammar

хотелось бы использовать конструкции по сложнее простых

Цитата:

[Grammar]
LangID=1033
Type=cfg

[<Start>]
<Start> = слово1
<Start> = слово2
<Start> = слово3...

Опции темы	Поиск в этой теме
Версия для печати Отправить на Email	Поиск в этой теме: Расширенный поиск
Опции просмотра
Линейный вид Комбинированный вид Древовидный вид

	Сайт	Форум	FAQ	RSS лента	Прочее
	Новости Исходники Компоненты Статьи Добавить исходник Поиск	Правила Поиск Сообщения за сегодня Пользователи Кто на форуме?	Delphi FAQ - 5000 статей DRKB - 4500 статей (ZIP-архив) Справочник функций и процедур Delphi Delphi Programming Guide Indy in Depth. Глубины Indy	Новости сайта Новости форума	Ссылки и Баннеры Donate О сайте Реклама Контакты