Разработанная японскими учеными платформа автоматизированного перевода манги — первая в своем роде: она использует для обработки графических новелл нейронные сети. Алгоритмы определяют, какому персонажу принадлежат реплики в пузырях и учитывают контекст ситуации.

В отличие от структурированной подачи информации в книжном тексте, повествование комикса очень сегментировано. Реплики персонажей разбиты на «пузыри» — расположенные ближе или дальше друг от друга, они могут быть частью одной реплики или словами нескольких персонажей. Ко всему прочему, говорящий в тексте может не упоминаться, а быть нарисован рядом с произнесенными словами. Это создает трудности для машинного перевода.

Исследователи из Токийского университета, компании Yahoo, и специализирующейся на машинных переводах манги компании Mantra создали инструмент для автоматизированного перевода японских комиксов. Одни алгоритмы машинного обучения выделяют на странице отдельные сцены, определяют их очередность и содержащихся в них действующих лиц и пузырей с репликами. Другие учитывают контекст ситуации в сцене – кому вероятнее всего принадлежит высказывание, его пол, возраст и предыдущие слова – распознают текст и формируют последовательное повествование. За распознавание изображений отвечает сверточная нейронная сеть, а за перевод — нейросеть-трансформер.

Помимо этого, ученые разработали метод автоматического создания корпуса параллельных текстов комиксов (совокупность оригинальных произведений и их переводов) и набор контрольных тестов для оценки качества перевода — все это сделано впервые и, как надеются авторы работы, станет отличным фундаментом для дальнейших исследований.

Статья

    Полезные материалы в одной еженедельной рассылке
    Подписывайтесь, не пожалеете.