+7 499 135-41-63 (ВЦ РАН)
   info@forecsys.ru
      или посмотреть карту сайта

Новости

Компания «Форексис» организует исследование по разработке алгоритма определения синонимии слов для заданного текстового корпуса

Компания «Форексис» продолжает работы по развитию системы полнотекстового поиска. Очередным этапом работ стала разработка алгоритма, расширяющего области поиска за счет создания базы слов-синонимов.

Специалистами «Форексис» был составлен корпус из 125 тыс. текстовых документов на русском языке, преимущественно подзаконных актов, находящихся в открытом онлайн-доступе. После этого была произведена обработка текстового корпуса: из текстов были исключены знаки препинания, латинские буквы и цифры, слова приведены к начальной форме, удалены местоимения-существительные, предлоги, союзы и междометия, исправлены ошибки и опечатки.

Итоговое количество слов в полученном корпусе составило более 300 млн, из них 1 млн уникальных слов. В итоговый словарь вошло порядка 35 тыс. слов с частотой >100.

В настоящее время на данном корпусе текстов проводится тестирование работы алгоритмов ApSyn и word2vec.

По итогам проведенных работ был создан объединенный словарь синонимов, а также протестирована обновленная поисковая система. На 2018 год запланирована дальнейшая адаптация работы алгоритмов под задачи проекта.

Дата публикации: 26.02.2018

вернуться к другим новостям