Словарь для оптического распознавания старославянского языка

Специализированная публичная база данных Словарь для оптического распознавания старославянского языка была создана в рамках проекта ГОРАЗДЪ: Цифровой портал старославянского языка (проект финансово поддерживается программой Министерства культуры Чешской республики, DG16P02H024, для годов 2016-2020).

Целью базы данных является повышение успешности оптического распознавания (OCR) печатных старославянских кириллических текстов, напр. словарей и изданий. База данных была разработана в рамках оцифровки Словаря старославянского языка (ССЯ) с помощью метода OCR. База данных назначена для использования в приложении ABBYY FineReader 12 или выше.

База данных содержит более чем 130 000 уникальных старославянских лексических единиц, выписанных из ССЯ. Таким образом, база данных включает в себя как нормализованные леммы, так рукописные цитаты из памятников, представляющих канонический старославянский язык, а также позднейшие разновидности церковнославянского языка.

Доступ:

Словарь для оптического распознавания старославянского языка

Системные требования (для ABBYY FinerReader 12):

  1. Распакуйте содержимое пакета gorazd_ocr-1.zip.
  2. Запустите приложение ABBYY FineReader 12 и выберите в главном меню Nástroje а затем - Jazykový editor.
  3. Откройте диалог Nový… и выберите Vytvořit nový jazyk na základě existujícího jazyka. В меню выберите Ruština (Starý Pravopis).
  4. Выберите имя для языка, напр. Старославянский.
  5. В поле Abeceda нажмите и отметьте символы, которые необходимо распознать в документе. Мы рекомендуем включать в алфавит только те символы, которые действительно присутствуют в тексте. Это повысит успешность распознавания.
  6. В меню Slovník выберите Uživatelský slovník и нажмите кнопку Upravit….
  7. Далее нажмите на кнопку Importovat… и выберите файл gorazd_ocr-1.txt. Загрузка файла может занять некоторое время.
  8. Как только загрузка завершится, вы можете закрыть диалоговые окна и выбрать язык (напр. старославянский) как Jazyk dokumentu..
  9. В меню Nástroje, диалоге Možnosti, на панели Číst отметьте функцию Číst s výukou и разрешите использование пользовательских моделей. Это необходимо для обучения распознаванию символов, не включенных в исходный язык.

Системные требования:

ABBYY FinerReader 12 или выше.

© 2020, Славянский институт Академии наук Чешской республики