В ТюмГУ создан и развивается корпусный проект по изучению лингвистических свойств учебных переводов

28 Декабря 2016

В ТюмГУ создан и успешно развивается корпусный проект по изучению лингвистических свойств учебных переводов в языковой паре английский – русский языки. Этот ресурс активно используется в академических исследованиях и обучении переводчиков. 

Языковой корпус – это коллекция текстов в машиночитаемом формате. Обязательным признаком корпуса является его точный размер, поэтому гугл или гуглбукс не являются корпусом в полном смысле слова и не могут использоваться в исследованиях. Тексты в корпусе подобраны по определенному принципу, соответствующему исследовательской задаче. 

«В настоящее время Корпус студенческих переводов (Russian Learner Translator Corpus, или RusLTC) – это самый большой корпус учебных переводов, – говорит его разработчик, доцент кафедры английской филологии и перевода Мария Куниловская. – Сегодня объем корпуса составляет 1,5 миллиона токенов, и он ежегодно увеличивается примерно на 200 тысяч слов. Корпус студенческих переводов – это онлайновый общедоступный ресурс, имеющий подробное описание на двух языках, включая обзор аналогичных ресурсов во всем мире. Материалы корпуса можно скачать в формате архива простых текстовых файлов и в специальном двуязычном формате TMX». 

Важно, что переводы выровнены относительно их оригиналов на уровне предложения, пояснила М. Куниловская. Выравнивание выполняется автоматически по технологии создания памятей переводов, с обязательной и очень трудоёмкой ручной корректировкой ошибок выравнивания. Кроме того, к одному предложению оригинала привязано много переводов (до 50). Вариативность является важнейшим качеством переводов, для ее изучения в Северной Европе запущен специальный корпусный проект, в рамках которого профессиональные переводчики независимо друг от друга выполняют переводы одного текста. Специально созданный в ТюмГУ корпусный менеджер, оснащенный пользовательским интерфейсом, позволяет осуществлять поиск по корпусу в любом направлении перевода с возможностью фильтрации результатов по 10 полям метаданных, отражающим социальные признаки переводчиков, жанровые особенности текстов, качество перевода и условия его выполнения. 

Лингвисты отмечают, что русский язык как язык перевода корпусными методами почти не изучается. Потому в ТюмГУ планируют заниматься выделением свойств переводов с английского на русский, которые можно было бы, с одной стороны, положить в основу автоматической оценки языкового качества перевода, а с другой – использовать для оптимизации подготовки переводчиков. 

На сегодняшний день тестируемые текстовые параметры включают: длину предложения (в словах), степень лексического разнообразия текста (по трем индикаторам), информационную плотность текста, частотность грамматических форм и некоторых видов функциональных единиц. 

Разработку ученых ТюмГУ уже оценили специалисты. Ссылка на корпус тюменцев есть на сайте Национального корпуса русского языка, на сайте ведущего центра по исследованию learner language Католического университета Лувена. Компания ABBYY (крупнейших разработчик ПО по обработке русского языка) предложила лингвистам Тюменского госуниверситета бесплатную лицензию на свой элайнер в обмен на разрешение использовать корпус в работе.



Источник: Официальный сайт ТюмГУ