Студенты создали алгоритм для поиска имен президентов в новостях

5 Марта 2019

Команды гуманитариев и программистов создали IT-проекты на единственном в России лингвистическом хакатоне LinguaHack. Победители разработали алгоритм для выявления в текстах новостей названий городов России, имен президентов и руководителей администраций областей, округов и других субъектов страны.

В LinguaHack приняли участие пять команд студентов ТГУ и ТУСУРа. В течение трех дней они решали кейсы по извлечению заданной информации из новостей, автоматической классификации текстов на положительные и отрицательные, созданию чат-бота для оптимизации колл-центров. Задания предоставили партнеры хакатона – информационное агентство ТАСС, МТС, консалтинговая компания Perfect Art.

Команда победителей NoName решала проблему выявления в текстах названий российских городов, имен президентов и руководителей администраций субъектов страны. СтудентыАнфиса Сборщикова и Виктория Шилова (ФИЯ), Екатерина Атамасова (ММФ), Александр Раушкин (ТУСУР) создали библиотеки со списками всех требуемых субъектов и алгоритм, анализирующий, встречаются ли они в тексте новости или нет. Они также предложили правила для различения названий городов и имен или фамилий, например, Владимир-Владимир. Программа будет полезна новостным агрегаторам и СМИ для анализа актуальной политической повестки в регионах.

В хакатоне предложил поучаствовать наш преподаватель. Темы кейсов были известны заранее, и мы решили, что хотим работать с извлечением сущностей из текста, – рассказала студентка факультета иностранных языков Анфиса Сборщикова. – Когда нам дали сам кейс, мы подумали, что это легко сделать. Но когда начинаешь копать глубже, то понимаешь, что все не так просто, в каждой категории есть масса исключений и особенностей, все-таки русский язык очень богатый. Решать это всё было очень интересно.

Экспертами на хакатоне выступили начальник управления инновациями в сфере науки, техники и технологий ТГУ Михаил Головатов, программист Elecard-Med Company Валерий Дацюк, руководитель отдела исследований и разработок компании Perfect Art Андрей Орлов и старший инженер этой же компании Михаил Ожгибесов.

Мы смотрели на понимание задачи, на проработку, то есть на ход мысли, провели ли обзор способов решения задачи. Когда начали реализовывать какой-то способ решения задачи, то какой был подход, как проверяли, работает или нет, что делали, чтобы исправить неработающее. Мы смотрели на то, как это решение было автоматизировано, – рассказал Андрей Орлов, руководитель отдела исследований и разработок компании Perfect Art. – И еще оценивали фишечки, которые ребята смогли скреативить за эти 2 дня, – искрометность презентации, какие интересные методологические решения применяли, например, проверка текстов из Википедии и другие.

Компания Perfect Art предложила команде Pocket Coders, занявшей второе место, вместе продолжить работу над проектом по классификации текстов и наградила их специальными дипломами.

Лингвахакатон задумывался для пропаганды новой магистерской программы «Компьютерная и когнитивная лингвистика». Однако наиболее значимым его результатом стало выявление творческих талантливых студентов, способных работать в командах. Победители LinguaHack-2018 уже сейчас работают над проектом в составе лаборатории когнитивных исследований языка ТГУ. Победителей LinguaHack-2019 также ждут новые проекты лаборатории. Надеемся увидеть их и в числе абитуриентов магистерской программы, познакомиться с которой можно на занятиях «Школы компьютерной и когнитивной лингвистики», которую мы проводим по субботам, – отметила профессор ТГУ Зоя Резанова.

Лингвистический хакатон прошел при поддержке Бизнес-инкубатора ТГУ.

Магистерская программа «Компьютерная и когнитивная лингвистика» открыта на базе САЕ «Институт человека цифровой эпохи» ТГУ. Студенты изучают формальные модели языка, языки программирования, математическую статистику, дисциплины, синтезирующие лингвистические и математические подходы (Text Mining), анализ естественного языка (NLP), основы психолингвистики, методы окулографии в лингвистических исследованиях и другие дисциплины. Обучение предусматривает много практики.