Новый, улучшенный поиск распознает в десятки раз больше казахских словоформ, чем ранее.
Алгоритм поиска слова построен на основе казахской грамматики. Он распознает, к какой части речи относится слово, и изменяет его по всем правилам языка. Например, для каждого казахского существительного алгоритм строит около 200 форм, а для глагола – около 2500. Теперь поиск знает более 14 миллионов казахских словоформ.
Помимо учета морфологии, теперь Яндекс умеет работать с синонимами. Так, если пользователя интересуют [песни на казахском], Яндекс будет искать и те документы, где речь идет о балладах. Кроме того, поиск понимает слова, в которых буквы казахского алфавита заменены на буквы русского алфавита (например, қ, н, у и др.).
И еще одно немаловажное и приятное новшество: новый поиск умеет даже исправлять опечатки в запросах на казахском!
* Яндекс работает с морфологией казахского языка с 2009 года — с открытия yandex.kz. Знание морфологии позволяет искать не только по точной форме слова (как в запросе), а по всем формам. Так, лучший рассказ про выставку автомобилей — [автокөлік көрмесі] — может оказаться на странице с формой «автокөліктер» или «автокөліктердің». До сих пор Яндекс учитывал в поиске только наиболее частотные формы слов, которые были ему известны. С помощью нового алгоритма можно построить все формы любого слова.