Инструкция по оцифровке исторических текстов

Карты по векам: XVI век - XVII век - XVIII век - XIX век - XX век

СОВЕТЫ ПО ОЦИФРОВКЕ ИСТОРИЧЕСКИХ ТЕКСТОВ

Прежде чем приступить к чтению этого текста, давайте условимся: отсканированный материал называется — «оригинал», то что распозналось в символы – «текст», непонятные знаки — «артефакт».

Работа с текстом в программе Word.

Подготовка.

Распознанный OCR-программой текст выглядит в Ворде неказисто, как правило он сохранил размер шрифта и формат подлинника, а также содержит множество артефактов. Нам это мешает.

Нужно убрать форматирование, оставив лишь абзацы. Это можно сделать так: поместить весь текст в блокнот (notepad), при этом весь ненужный формат слетает, остаются лишь абзацы которые нам только и нужны. Создаём чистый документ в Word и вставляем в него содержимое блокнота. Далее работем с этим документом.

Выделяем все (ctrl+a) и устанавливаем шрифт Times New Roman 12 (можно другой, главное размер шрифта), масштаб 110-150% так удобнее работать с отдельными строчками.

Полученный из Файн Ридера текст содержит множество артефактов, таких знаков как — 'Ь, 'Ъ, и т. д. это чаше всего буква "Ять" ее нужно заменить на букву "е". Как это сделать? Вызываем диалог "найти и заменить", он находится в меню edit или правка, или ctrl+H. В появившемся меню нажимаем кнопку "больше" и ставим галочку "учитывать регистр". Затем жмем "заменить все".

Повторяем эту операцию с каждым артефактом распознанным Файн Ридером вместо "Ять". Затем через этот же диалог удаляем все твердые знаки (ъ). Обратите внимание "найти и заменить" работает не только с буквами, но и с пробелами! Заменяя устаревшие окончания "аго ", "яго " и др. не забывайте добавлять в конце пробел, тогда поменяются именно окончания, а не буквосочетания.

Далее применяем этот же алгоритм к другим системно повторяющимся артефактам. После этих операций текст значительно поправиться, а ручной работы убавиться в разы!

*Внимание! Операции над устаревшими окончаниями и словами не относятся к документам! В документах (приказах, грамотах, указах, письмах, записках и т. д.) оставляем устаревшие слова, как они есть, убираем лишь дореформенные знаки.

Правка.

Затем начинаем править текст вручную, читать сверяясь с оригиналом. Изображение оригинала я обычно держу открытым, чтобы в любой момент свериться.

Не забывайте помечать номера страниц оригинала квадратными скобками [#]. Встречающиеся в тексте сноски (* или маленькие цифры) заменяем обычными цифрами. Примечания в конце страницы переносим в конец всего текста. При этом не забываем указывать на какой странице находится сноска.

Обязательно сохраняем абзацы, как в оригинале. Встречающиеся таблицы лучше превращать в обычные таблицы Ворда, так меньше шансов запутаться. Выделения и курсивы обязательно воспроизводим, как в оригинале. Дроби оставляем как есть. Тире — между чисел короткие, без пробелов, между слов длинные с пробелами. Кавычки заменяем на стандартные « ».

Контрольный выстрел.

После ручной правки, проверка правописания встроенным вордовским спелчекером (клавиша - F7). Внимательно сверяясь с оригиналом перелопачиваем весь текст еще раз. Переносов не должно быть! Последний штрих - лишние пробелы. Вызываем "найти и заменить" и в поле "найти" ставим два пробела, в поле "заменить" ставим один пробел. Жмем — "заменить всё", до тех пор пока программа не скажет, что заменять нечего.

Ставим подпись под документом подпись: OCR фамилия, имя, год и отсылаем на 051@inbox.ru

Эта инструкция не догма, а лишь совет, так как материал и задачи бывают разные. Некоторые добровольцы предпочитают набирать текст прямо с распечатки. Всё зависит от опыта, навыков и знаний. Удачи Вам друзья!

И. Воинов в 2007-10 гг.

Реклама: Выгодно заказать коллекторы для теплого пола на сайте www.alterplast.ru. *

Пожалуйста, сообщайте нам в о замеченных опечатках и страницах, требующих нашего внимания на 051@inbox.ru.
Проект «Кольские карты» — некоммерческий. Используйте ресурс по своему усмотрению. Единственная просьба, сопровождать копируемые материалы ссылкой на сайт «Кольские карты».