Новосибирская студентка создала приложение для распознавания текстов Тибета

В Новосибирском госуниверситете студентка Анна Мурашкина разработала инновационное приложение, способное автоматически идентифицировать, переводить в цифровой формат и анализировать старинные тибетские тексты.

   
   

Платформа станет инструментом для сохранения древних рукописей и открытия доступа к ним для ученых, архивариусов и работников библиотек.

В университете подчеркивают, что новая платформа разработана для работы с книгами, напечатанными с использованием тибетской системы письма, берущей свои корни в древнеиндийском письме брахми. Разработка может оказать существенную помощь в сохранении письменных памятников, представляющих собой неотъемлемую часть культурного наследия бурятского народа.

Анна Мурашкина изучает фундаментальную и прикладную лингвистику в гуманитарном институте НГУ и работает в Институте вычислительной математики и математической геофизики СО РАН.

В процессе разработки она использовала оцифрованные изображения страниц тибетских текстов XVIII–XX столетий, хранящихся в различных архивах.

Анна поясняет, что старинные рукописи и печатные издания содержат «уникальные сведения в сферах философии, медицины, истории и культуры». Учитывая подверженность бумаги разрушению, для спасения этих знаний необходима их цифровая обработка.

В фонде Института монголоведения, буддологии и тибетологии РАН находится приблизительно 70 тысяч тибетских исторических записей, которые могут быть повреждены со временем.

   
   

Для решения этой проблемы Мурашкина выполнила ручную разметку строк в тибетских текстах, создала систему оценки точности распознавания символов и усовершенствовала высокоточную нейронную сеть.

В итоге был создан модульный алгоритм, включающий в себя последовательные этапы: предварительную обработку, разделение на части, распознавание символов и последующую обработку.