site.btaИнститутът по информационни и комуникационни технологии на БАН представи три оригинални технологии за машинна обработка на реч

Институтът по информационни и комуникационни технологии на БАН представи три оригинални технологии за машинна обработка на реч
Институтът по информационни и комуникационни технологии на БАН представи три оригинални технологии за машинна обработка на реч
Снимки: БТА, Ирина Симеонова

Институтът по информационни и комуникационни технологии на Българската академия на науките (ИИКТ-БАН) представи три оригинални технологии за машинна обработка на реч, базирани на последните достижения на дълбокото машинно самообучение. Това стана в зала "Проф. Марин Дринов" на БАН, в присъствието на председателя на Академията акад. Юлиан Ревалски, председателя на Съюза на слепите в България Васил Долапчиев, членове на организацията и представители на академичната общност, медиите, медици.

Програмите пред присъстващите представи проф. Стоян Михов. Трите разработки са говорещата NeuralSpeechLab, е-Здраве и BG-Conformer. 

NeuralSpeechLab е краен продукт на гласов интерфейс, реализиран чрез невронен синтез на българска реч. Той е създаден по договор за разработка на  “Синтезатор на българска реч за нуждите на хората със зрителни увреждания, възложен от Съюза на слепите в България и финансиран от Министерството на труда и социалната политика. По даден текст на български език програмата генерира естествено звучаща и лесно разбираема синтезирана реч. Тя работи на персонални компютри под Windows и мобилни устройства под Android върху 32 и 64 битови платформи, посредством интерфейс към Windows SAPI и към Android Text To Speech Service.

Програмата синтезира българска реч, която трудно се различава от естествената. Невронната мрежа е обучена с гласовете на Христина Ибришимова и Александър Воронов. Автоматично определя прозодията и ударенията в текстовете с грешка под 1 на 400 думи. Осъществява се синтез на реч в реално време с латентност под 0,1 секунда без интернет. Позволява се контрол на височината на тона и скоростта на изговора. Английски думи се изговарят чрез симулиране на английските фонеми с български, разказа проф. Михов. Той отбеляза, че програмата поддържа богат набор от опции за настройване на речта и конфигуриране на изговарянето, които са насочени към конкретните нужди на хората с увредено зрение. Чрез сравнение с друга подобна програма, Михов демонстрира, че разработката превъзхожда аналозите, предлагани от компаниите в световен мащаб.

Медицинският диктофон е-Здраве е прототип на хибридно разпознаване на българска реч за подпомагане на изготвянето на медицинска документация. Той е резултат на Работен пакет 5 на Национална научна програма „Електронно здравеопазване в България“ (ННП еЗдраве). Основното предназначение на разработката е компютърното подпомагане на изготвянето на медицинска документация чрез диктовка. Прототипът е реализиран като облачна услуга и поддържа JSON базиран програмен интерфейс (API) за удобна интеграция към медицински информационни системи.

В него е интегриран представителен корпус за обща медицина от 471,8 млн. думи, като за целта са използвани анамнези и статуси от общопрактикуващи лекари и медицински специалисти, както и епикризи и оперативни протоколи от болници и статии от здравен интернет портал. При тестването му е установено, че процентът на непознати думи е 2,41 на сто. Статистиката на прецизността е направена върху 26 часа и 36 минути записи от 51 медицински специалисти. Медианата на прецизността на ниво думи е 91,68%. Най-често грешките са заради лоши записи - 35 процента, непознати думи - 22 процента, несъществени - 10 на сто.   

Интелигентният стенограф BG-Conformer е друг прототип, разработен от ИИКТ-БАН, на невронно разпознаване на българска реч за административни цели. Той е създаден в рамките на вътрешен проект на института без външно финансиране. Целта на разработката е да подпомага изготвянето на стенограми, протоколи, доклади и друга документация в най-различни сфери на администрацията. Прототипът е реализиран като облачна услуга и поддържа JSON базиран програмен интерфейс (API). За обучението на интерфейса е ползван речеви корпус от пленарните заседания на Народното събрание за периода 2010 - 2018 г. Характерно при програмата е, че прави разпознаването на речта не на базата на отделни думи, а на срички, което позволява грешките да са много по малко, обясни проф. Михов. Той отбеляза, че и трите разработки достигат качество и прецизност, неотстъпващи на световните достижения в областта. 

Синтезаторът NeuralSpeechLab вече се използва от стотици хора със зрителни увреждания, а медицинският диктофон и интелигентният стенограф са завършени прототипи, готови за реализиране в крайни продукти. Михов допълни, че екипът на ИИКТ-БАН продължава работа, както по усъвършенстването на технологиите за синтез и разпознаване на реч, така и по разработването на нови приложения, свързани с обработката на естествена реч. 

Двата прототипа могат лесно да бъдат внедрени след допълнителна работа по тях, отбеляза той. Професорът посочи още, че бъдещето на комуникацията между хората и машините ще става все повече с естествена реч. 

Председателят на Съюза на слепите в България Васил Долапчиев благодари на екипа на проф. Стоян Михов за изключително успешното реализиране, в продължение на 13 месеца, на разработката на новия синтезатор за българска реч за нуждите на хората със зрителни увреждания. Той отбеляза, че днес е приключила проверката от основната финансираща организация - Фонд “Социална закрила” и всичко е било прието на 100 процента. Долапчиев посочи, че по време на презентацията се набляга на научните достойнства. Аз бих наблегнал обаче на човешкия момент, каза още той и допълни, че за над 10 000-те членове на организацията им този проект е бъдещето. По думите му бъдещето е в сложния процес на социално приобщаване, в шанса да се реализират на пазара на труда. Той отваря огромната врата на достъпа до информация, посочи мъжът. Долапчиев отбеляза, че имат идеи за реализирането на нови съвместни поректи. Той връчи на проф. Михов почетния знак на Съюза на слепите в България.

/АКМ/

news.modal.header

news.modal.text

Към 21:18 на 14.08.2022 Новините от днес

Тази интернет страница използва бисквитки (cookies). Като приемете бисквитките, можете да се възползвате от оптималното поведение на интернет страницата.

Приемане Повече информация