Программисты учат компьютеры распознавать речь на казахском языке - Караван
  • $ 498.65
  • 589.06
-2 °C
Алматы
2026 Год
4 Февраля
  • A
  • A
  • A
  • A
  • A
  • A
Программисты учат компьютеры распознавать речь на казахском языке

Программисты учат компьютеры распознавать речь на казахском языке

В стране наблюдается значительный рост казахоязычного населения.

  • 7 Марта 2021
  • 176
Фото - Caravan.kz

Казахстанская IT-специалист Динара Алимова вместе с группой единомышленников разработали технологию языковой модели казахского и смешанного русского и казахского языков. Иначе говоря обучают компьютер понимать казахско-русскую речь, передает Tengrinews.kz.

Так как в стране наблюдается значительный рост казахоязычного населения, разработанная голосовая модель языка — это то, что поможет сделать наши будни более комфортными, считает автор проекта.

— Голосовые помощники, речевая аналитика, синтез голоса — это все можно применять для автоматизации бизнес-процессов, модернизации call-центров, внедрения умных домов и, конечно, помощи людям с особенными потребностями. Наша текущая задача — вывести модель на предельно высокий уровень эффективности, — поделилась Динара.

В 2018 году Динаре предложили проект по разработке модели казахского и смешанного казахского и русского языков. В первое время она работала самостоятельно, занималась исследованиями, изучала зарубежные проекты. Приобретенные в прошлом организаторские и коммуникативные навыки помогли стать продуктовым менеджером.

— Без команды ты никто, — говорит девушка.

Через несколько недель к проекту присоединился datascience специалист Ердаулет. 

— Я хочу услышать, как технология заговорит. Почти три года мы идем к этому, и обязательно придем. Мы хотим создать голосового помощника для введения диалога на казахском языке, — поделилась Динара Алимова.

Спустя два, три месяца были видны уже первые результаты. По словам девушки, на тот момент полноценной команды не было и процессы были выстроены иначе. Они совместно с datascience специалистом самостоятельно обрабатывали аудио, делали разметку.

— Мы просили коллег, чтобы они записали нам аудио на казахском. Для начала нам нужно было собрать данные — записей с общей длительностью в 20 часов. Они были нужны для тренировки и демонстрации первых результатов. Когда нам нужно было представить первый прототип, нам понадобился разработчик. С помощью коллег наутро мы уже показали свои первые достижения. Тогда наша модель распознала первые слова. Это были непередаваемые эмоции – будто ребенок заговорил, — добавила Динара Алимова.

Самой большой потребностью на тот момент был сбор данных на казахском и смешанном казахско-русском языках.

— Наша команда выросла, но мы пополняли не штат разработчиков, а штат сотрудников, которые занимались разметкой данных – они посекундно прописывали то, что слышали. Почти год мы наращивали объем информации, которую использовали для обучения. Результаты были не очень хорошие, — вспоминает разработчик.

Сейчас они собрали 1,3 тысячи часов аудиозаписей, но специалисты запланировали дойти до значения в 10 тысяч часов.

В команде три специалиста datascience, которые выбирают архитектуры, на которых тренируют модель и  подбирают параметры. По мнению авторов технологии, это не только большая техническая работа, но и лингвистическая.

— Мы ведь работаем с непростым казахским языком, интегрируем его с моделью сложного русского языка, создаем словари. Backend-разработчики и frontend-разработчики принимают все эти технологии, "упаковывают" в код, и мы получаем программное обеспечение. Если воображать, то можно представить объект, который содержит много данных, словарей, фонем, и понимает, что говорят люди. Сейчас наша команда работает не только над распознаванием, мы основали целую лабораторию, которая занимается речью. Одно из активных направлений — синтез голоса. Мы хотим, чтобы наша модель заговорила. Также мы работаем с текстом в рамках NLP, развиваем функцию идентификации спикера. Нужно помнить, что современные технологии — это рукотворное чудо, и за его созданием стоят годы работы целой команды, — поделилась девушка.

Динара признается, что знает, как должен выглядеть продукт, и понимает, куда нужно расти дальше.

К примеру, варианты применения их технологии:

Девушка признается, что в команде нет гендерных стереотипов.

— Я не сталкивалась с людьми, которые могли бы усмехнуться моей работе в IT. Все отлично понимают, что IT-сфера, это про новый взгляд на привычные вещи и веру в будущее, а не про пол. Сейчас мир полон возможностей и ресурсов. Любой человек, который не ленится, знает, как управлять компьютером, и не ленится, может изучить язык программирования и прийти в IT. Все это зависит от уровня упорства и вложенного труда, а не от того, женщина это или мужчина. Подъем феминизма в последние годы стал хорошим толчком для роста IT-профессий среди девушек. У нас в компании есть разработчицы, тестировщицы, системные администраторы и другие IT-специалисты девушки. Среда, где работают мужчины и женщины, которые смотрят на одни вещи по-разному, благотворно влияет на создание продуктов, — поделилась девушка.

В команде над технологией работают Ердаулет Зейнолла, Меирхан Есеев, Алибек Темиртас, Ержан Оразаев, Сержан Касаев, Мухит Елемес.

В тренде:

Пенсия 2026

9 лет трудового стажа пенсионерки восстановили в Павлодаре

Новый год 2026

Правило двух стаканов: как избежать похмелья

Налоговый кодекс РК 2026

Чиновники никак не ограничены в том, как могут тратить бюджетные деньги: как они перегрели экономику?

АЭС

В Казахстане утвердили место для строительства второй АЭС

Алматы

Алматинка родила тройняшек

МРП 2026

Штрафы подросли: за какие нарушения казахстанцам придётся платить до 130 тыс. тенге

Землетрясение

В 282 км от Алматы произошло землетрясение

Бокс

WBO вынесла новое решение по Жанибеку Алимханулы

Футбол

МВД Казахстана предупреждает родителей: дети могут передать пароли от аккаунтов мошенникам в интернете

Астана

20 баллонов "веселящего газа" изъяли в клубах столицы

Азербайджан

В Акмолинской области полицейские помогли водителям из Азербайджана

Шымкент

Убийство Нурай: адвокат сообщил о неожиданном повороте в деле

Иран

До конца февраля одна из авиакомпаний отменила рейсы в Алматы

Нефть

В чем был смысл атаки украинских дронов на казахстанские танкеры в территориальных водах России

Закон

В Казахстане вступил в силу Закон об искусственном интеллекте

Война

Песков отреагировал на предложение Зеленского провести переговоры с Путиным в Казахстане

Туризм

Китайскую с туристку с кровотечением эвакуировали в алматинских горах

Медицина

В Казахстане расширили перечень заболеваний, лечение которых доступно по ОСМС