| «Здания Мурманска» на DVD | Измерить расстояние | Расчитать маршрут | Погода от норгов | |
Карты по векам: XVI век - XVII век - XVIII век - XIX век - XX век |
СОВЕТЫ ПО ОЦИФРОВКЕ ИСТОРИЧЕСКИХ ТЕКСТОВ Прежде чем приступить к чтению этого текста, давайте условимся: отсканированный материал называется — «оригинал», то что распозналось в символы – «текст», непонятные знаки — «артефакт». Работа с текстом в программе Word. Подготовка. Распознанный OCR-программой текст выглядит в Ворде неказисто, как правило он сохранил размер шрифта и формат подлинника, а также содержит множество артефактов. Нам это мешает. Нужно убрать форматирование, оставив лишь абзацы. Это можно сделать так: поместить весь текст в блокнот (notepad), при этом весь ненужный формат слетает, остаются лишь абзацы которые нам только и нужны. Создаём чистый документ в Word и вставляем в него содержимое блокнота. Далее работем с этим документом. Выделяем все (ctrl+a) и устанавливаем шрифт Times New Roman 12 (можно другой, главное размер шрифта), масштаб 110-150% так удобнее работать с отдельными строчками. Полученный из Файн Ридера текст содержит множество артефактов, таких знаков как — 'Ь, 'Ъ, и т. д. это чаше всего буква "Ять" ее нужно заменить на букву "е". Как это сделать? Вызываем диалог "найти и заменить", он находится в меню edit или правка, или ctrl+H. В появившемся меню нажимаем кнопку "больше" и ставим галочку "учитывать регистр". Затем жмем "заменить все". Повторяем эту операцию с каждым артефактом распознанным Файн Ридером вместо "Ять". Затем через этот же диалог удаляем все твердые знаки (ъ). Обратите внимание "найти и заменить" работает не только с буквами, но и с пробелами! Заменяя устаревшие окончания "аго ", "яго " и др. не забывайте добавлять в конце пробел, тогда поменяются именно окончания, а не буквосочетания. Далее применяем этот же алгоритм к другим системно повторяющимся артефактам. После этих операций текст значительно поправиться, а ручной работы убавиться в разы! *Внимание! Операции над устаревшими окончаниями и словами не относятся к документам! В документах (приказах, грамотах, указах, письмах, записках и т. д.) оставляем устаревшие слова, как они есть, убираем лишь дореформенные знаки. Правка. Затем начинаем править текст вручную, читать сверяясь с оригиналом. Изображение оригинала я обычно держу открытым, чтобы в любой момент свериться. Не забывайте помечать номера страниц оригинала квадратными скобками [#]. Встречающиеся в тексте сноски (* или маленькие цифры) заменяем обычными цифрами. Примечания в конце страницы переносим в конец всего текста. При этом не забываем указывать на какой странице находится сноска. Обязательно сохраняем абзацы, как в оригинале. Встречающиеся таблицы лучше превращать в обычные таблицы Ворда, так меньше шансов запутаться. Выделения и курсивы обязательно воспроизводим, как в оригинале. Дроби оставляем как есть. Тире — между чисел короткие, без пробелов, между слов длинные с пробелами. Кавычки заменяем на стандартные « ». Контрольный выстрел. После ручной правки, проверка правописания встроенным вордовским спелчекером (клавиша - F7). Внимательно сверяясь с оригиналом перелопачиваем весь текст еще раз. Переносов не должно быть! Последний штрих - лишние пробелы. Вызываем "найти и заменить" и в поле "найти" ставим два пробела, в поле "заменить" ставим один пробел. Жмем — "заменить всё", до тех пор пока программа не скажет, что заменять нечего. Ставим подпись под документом подпись: OCR фамилия, имя, год и отсылаем на 051@inbox.ru Эта инструкция не догма, а лишь совет, так как материал и задачи бывают разные. Некоторые добровольцы предпочитают набирать текст прямо с распечатки. Всё зависит от опыта, навыков и знаний. Удачи Вам друзья! И. Воинов в 2007-10 гг. |
начало | 16 век | 17 век | 18 век | 19 век | 20 век | все карты | космо-снимки | библиотека | фонотека | фотоархив | услуги | о проекте | контакты | ссылки |