Создан первостепеннный аудиопоисковик

"Центр речевых технологий" объявил о завершении работ над технологией Voice Digger - поиском "ключевых" слов в фонограммах русской речи. Это первая в России коммерческая разработка в области audio data mining - одного из самых перспективных направлений цифрового компьютерного рынка в мире.

Разработанный «Центром речевых технологий» Voice Digger - основополагающий нашенский розыск по ключевым словам в звукозаписях русской речи. Voice Digger позволяет автоматически выделять ключевые слова и словосочетания в потоке слитной речи без предварительного прослушивания. Разработка основана на непрерывном распознавании речи, реализуемом с использованием теории скрытых марковских процессов (НММ). Ключевые слова задаются в виде обычного текста, по которому организация сооружает НММ-модель каждого слова. На выходе VoiceDigger предоставляет ссылку на звуковой протокол и местоположение искомого слова или словосочетания.

Специалист по компьютерной лингвистике Виктор Бочаров рассказал, что свойство системы поиска ключевых слов определяется двумя показателями: вероятностью обнаружения ключевого слова и вероятностью ложного срабатывания при заданной длине искомого слова. Обычно пользователь может регулировать чувствительность системы в зависимости от того, что для него хуже: пропустить произнесение слова или заполучить немало ложных срабатываний. В «Центре речевых технологий» сообщили, что порядок ошибки системы составляет порядка 8%.

Участники рынка сулят новой разработке серьезные перспективы. Андрей Терехов, генеральный управляющий «Ланит-теркома» говорит: «Если новая разработка на самом деле позволяет распознавать рядом 90% процентов речевого потока, тот, что записан без особых стараний со стороны говорящего, без „вычеканивания" каждого слова, то, безусловно, эту технологию разрешается прозвать прорывом в области audio data mining». Согласен с ним и Виктор Бочаров. Он уверен, что у данной технологии хорошие перспективы, так как появляется вероятность вырабатывать поиск по большому количеству информации, существующему только в звуковой форме. «Я думаю, что интеграция этой функции в поисковые системы будет пользоваться успехом у пользователей», - полагает лингвист.

Для просмотра изображения кликните по этой ссылке.


Хотя в «Яндексе» называют аудиопоиск преждевременным, разработчики уверены, что кому-нибудь он во что бы то ни стало пригодится

В ЦРТ считают, что новая методика будет пользоваться спросом в крупных системах обработки, хранения и анализа данных. Модули, созданные на базе Voice Digger, позволят оперативно обработать не только текстовые, но и мультимедиа-данные и обрести на выходе систематизированные выборки по интересующей пользователя тематике.

В качестве примера аналогичной западной разработки позволительно привести компанию TVEyes. Фирма создала поиск по содержимому аудио- и видеопотоков. TVEyes предоставляет своим клиентам возможность делать поиск по ключевым словам посреди содержимого ведущих телеканалов и радиостанций США, Канады, Великобритании и Австралии. Для отдельного пользователя пользование услугами TVEyes в зависимости от предоставляемых возможностей составляет от $0 до $5000 в месяц.

Огромное число аудио- и видеофайлов, выложенное в интернете, даёт большое поле для расширения сферы поиска традиционных поисковиков. Ранее Google сообщал о том, что в 2006 г. будет запущен интернет-поиск по содержимому аудиофайлов, но этого в то время как не произошло. В «Яндексе» отмечают, что в силу ограниченности вычислительных мощностей миг для этого ещё не пришло. «Количество аудиофайлов в Рунете исчисляется миллионами, и заблаговременно не известно, является ли файл музыкой или речью, на русском или английском. Качество распознавания и прыть обработки могут сделаться препятствием для индексации больших массивов речевой информации», - считает Александр Садовский, глава отдела веб-поиска «Яндекса».

Тем не менее, генеральный босс «Центра речевых технологий» Михаил Хитров уверен, что у разработки его компании есть большие перспективы: «В связи со все больше активным использованием естественного интерфейса и, в частности, голоса для общения с техникой возросло и важность аудиозаписи как единицы носителя информации. Появилась надобность в системах, способных скоро и действенно обслуживать аудио-архивы и отыскивать нужную информацию в большом объеме записи».

Комментариев: [0] / Оставить комментарий

Keywords:

слова, ключевые слова, каждого слова, слова словосочетания, искомого слова, слова вероятностью, слова задаются, слова обычно, слова выходе, слова безусловно