- Что значит оцифровка документов
- Как организовать электронную систему хранения документов
- Разбираемся, как оцифровать документы и как их систематизировать
- Как оцифровать документы
- Как систематизировать электронную документацию
- Что такое оцифровка?
- Какой путь выбрать?
- Сколько документов нужно сканировать?
- Где сканировать документы?
- Расшивать ли документы?
- Какое качество выбрать?
- Индексирование
- Какие методы извлечения данных выбрать?
- Можно ли провести индексирование самостоятельно?
Что значит оцифровка документов
В офисе часто бывает нужно переслать электронной почтой копии — электронные версии печатных документов. Это могут быть различные акты, счета-фактуры, письма, договора, уставы, служебные записки и любые другие возможные документы.
Дома у нас есть старые фотографии, которые с годами дряхлеют, и мы хотели бы их сохранить.
Нам дали на время интересную книгу, а хочется иметь ее у себя. Как это все сделать? Наши недолговечные бумажные документы надо преобразовать в электронный вид, то есть оцифровать и сохранить.
Оцифровка – это перевод изображения, или аналогового аудио/видеосигнала в цифровой формат пригодный для записи в электронный носитель.
Для оцифровки изображений объекта существуют специальные устройства – сканеры. Есть сканеры штрих-кодов, сканеры кинопленки. Биометрические сканеры считывают рисунок сетчатки глаза или папиллярный рисунок кожи пальцев руки. Форму объемного объекта считывает трехмерный 3D-сканер.
В сканерах для обработки бумажных носителей – рисунков, фотографий, текстовых документов, изображение построчно освещается специальной лампой, и отраженный световой поток фокусируется на светочувствительной матрице. Полученные электрические сигналы аналогово-цифровой преобразователь превращает в систему двоичных данных, которая и образует цифровую копию изображения.
Выбор сканера зависит от задач и специфики его применения. Сканер в офисе почти всегда используется для оцифровки документов. Даже, если сканируются фотографии, в офисе к ним не предъявляются высокие требования качества. Разрешения в 300 dpi вполне достаточно для обеспечения точной работы программ распознавания и получения хорошо читаемого текста. Любой выпускаемый сегодня сканер обеспечивает приемлемое для офисных работ разрешение.
Это касается и глубины цвета. Практически каждый современный сканер воспроизводит необходимый для печатных документов уровень цвета серого.
Важно в офисе, где основной задачей является быстрая постраничная оцифровка текстовых документов, это — автоматизация процесса сканирования. Могут применяться листопротяжные сканеры. Здесь, лист документа вставляется в щель аппарата и протягивается, как и в факсе, по направляющим роликам. Такой сканер удобен со встроенным автоподатчиком листов. Загружаем в лоток несколько листов многостраничного документа, и пока сканер выполняет оцифровку, параллельно занимаемся другим делом. Здесь все просто. Если установлена соответствующая программа распознавания текста, для оцифровки и сохранения документа в нужном формате на таком сканере достаточно нажать одну кнопку.
Современным офисным решением для отдела проектной компании, например, может быть сканер формата А3 входящий в многофункциональное устройство вместе с принтером А3/А4. На таком МФУ удобно оцифровывать и делать копии чертежей.
Ясно, что сосканировать сброшюрованный журнал или разворот книги на листопротяжном сканере не получится.
Для сканирования двусторонних документов существуют дуплексные сканеры, где два сканирующих элемента обрабатывают обе стороны листа в один проход.
Хорошим решением для дома является цветной струйный МФУ. МФУ — это многофункциональное устройство включающее в себя сканер и принтер. Такое устройство одновременно является и копировальным аппаратом. То есть, МФУ может в автоматическом режиме сканировать документ и печатать его копию — создавать фотокопию документа.
Компактный аппарат с совмещенными функциями занимает меньше пространства на столе. Стоимость его будет существенно ниже суммарной стоимости входящих в него устройств, если покупать их по отдельности. На цветном струйном принтере мы делаем качественные цветные фотографии и визитки, а планшетным сканером оцифровываем документы, фотоальбомы или нужные книги.
В следующих уроках мы поучимся вручную постранично, на планшетном сканере оцифровывать, преобразовывать и сохранять текстовые документы.
В этих примерах для сканирования я использовал популярный настольный МФУ формата А4. Такое недорогое устройство является оптимальным решением для дома и может быть вторым, дополнительным МФУ в офисе.
Предположим, что мы имеем многостраничный логически связанный документ, который нужно оцифровать и отправить на мейл нашему контрагенту. Назовем его «Договор».
В любимой всеми нами Windows XP есть стандартный «Мастер работы со сканером или цифровой камерой». Чтобы мастер заработал, на компьютере должен быть установлен сканер, и он должен быть включен. Работать в мастере очень просто и в уроке оцифровка документов в Windows XP есть небольшое руководство.
В Windows 7 инструментом для создания электронных копий печатных документов и изображений служит стандартный компонент «Факсы и сканирование Windows».
Итак, мы почитали уроки и с помощью одной из этих программ получили файлы сканов страниц нашего договора в одном из графических форматов, сохранили, и пожалуйста, прикрепляем их к электронному письму, отправляем по адресу.
Плохо здесь то, что при сканировании многостраничного документа этими програмками мы не сможем объединить сканы страниц в единый файл. Конечно, можно пронумеровать файлы страниц по порядку и заархивировать их, чтобы компактно переслать. Но адресат наш сможет только по очереди просматривать страницы в графическом редакторе, не имея возможности навигации по документу. Это некомфортно и убивает время. И, вообще, неприемлемо.
Фактически, используя эти инструменты, мы получаем отдельные цифровые фотографии страниц документа.
Чтобы преобразовать наши разрозненные сканы в единый документ с возможностью полнотекстового поиска, нужна программа распознавания текста. Лучшей на сегодня является FineReader.
FineReader – это программа российской компании ABBYY. Последний ABBYY FineReader двенадцатой версии выпущен в феврале 2014 года. Эта программа извлекает текстовые данные из цифровых изображений — распознает символы текста. Ознакомительную версию ABBYY FineReader 12 Professional можно скачать с официального ресурса: http://www.abbyy.ru/finereader и потренироваться в течение 30 дней.
Лучше, когда на компьютере установлена одна из последних pro-версий. Здесь и далее описывается работа в ABBYY FineReader 10 Professional Edition.
Итак, в предыдущих уроках мы насканировали страниц стандартными инструментами Windows, пронумеровали их, сохранили с расширением «jpg» и поместили в отдельную папку, которую назвали «Договор».
Вот так, используя замечательные возможности программы распознавания мы легко преобразуем различные изображения в редактируемые форматы.
Идем далее. Когда у нас на компьютере установлен FineReader и подключен сканер, мы сразу оцифруем бумажные документы и фотографии и сохраним их в нужном формате.
Об этом, пожалуйста, в следующем уроке: Сканируем в ABBYY FineReader.
И вот, мы почитали эти уроки и видим какие преимущества дает нам программа распознавания. Вместо нудного и трудоемкого набора текста из книги, или брошюры, мы, просто, сканируем нужные страницы FineReader’ом, редактируем их, если надо, и сохраняем в выбранном формате. Так, можно быстро сверстать, например, статью или реферат.
А, как сканировать страницы книг и оцифровывать книги читаем в теме: Оцифровка книги.
В заключение темы подытожим: сканер в сочетании с программой распознавания — рациональная замена набора текста с клавиатуры. Имея бумажную версию — напечатанный на принтере или в типографии текст, мы вместо ввода с клавиатуры просто сканируем его. Другой популярной областью применения сканера является оцифровка разнообразных печатных продуктов — этикеток, открыток, фотографий, журналов, книг.
Источник
Как организовать электронную систему хранения документов
Разбираемся, как оцифровать документы и как их систематизировать
Практически любой бизнес сталкивается с необходимостью хранения бумажной документации. Счета, накладные, договоры, отчетность, кадровые документы и прочее — всё это необходимо как-то сохранять. Кроме того, важно организовать удобное использование. Порой на поиск бумажных документов уходит много времени. А иногда нужный документ и вовсе найти не удаётся, поскольку он отсутствует или расположен в другом месте.
В кратком обзоре Open Academy читайте, как оцифровывать, систематизировать и хранить документы.
Как оцифровать документы
Оцифровка бумажной документации включает в себя три основных этапа.
1. Подготовка документов к оцифровке
Прежде всего, документы необходимо систематизировать по схожим признакам. Например, можно отсортировать документацию по следующим параметрам:
- тип документов;
- хронология создания;
- принадлежность к конкретному подразделению.
Техническая подготовка состоит в разброшюровке документов, удалении скрепок и скоб. Необходимо обеспечить удобство сканирования.
2. Проведение оцифровки документов
Для оцифровки документации применяют планшетное либо поточное сканирование. Выбор подходящего способа зависит от качества печати и содержания документов, их формата и прочих характеристики. К примеру, нотариально заверенные сшитые документы сканируют через стекло планшета, так как их нельзя пропустить через автоматическую подачу бумаги.
Отсканировать документы можно самостоятельно при наличии подходящего сканирующего оборудования. Если нужно оцифровать сравнительно небольшое количество документов, то многофункционального принтера или планшетного сканера будет достаточно.
Учтите, что функцию автоматической подачи листов для обработки многостраничных документов имеют только более дорогие профессиональные модели сканеров.
3. Верификация изображений и создание электронных документов
Полученные изображения документов часто требуют дополнительной обработки. При плохом качестве оригиналов возможны дефекты печати, блёклость или нечёткость. Важно найти и исправить все недостатки.
Готовые изображения нужно перевести в подходящий формат (pdf, doc, XLM), чтобы обеспечить возможность последующего использования и полнотекстовый поиск.
Для изменения формата документов используют специальное ПО, в том числе онлайн-программы. Например:
Чтобы изменить формат документа с помощью OCR, нужно загрузить изменяемый документ в программу и потом скачать готовый результат в нужном формате.
Как систематизировать электронную документацию
Для хранения электронных документов и их последующего использования в работе применяют СЭД — системы электронного документооборота.
На российском рынке более востребованы отечественные решения, поскольку в них предусмотрена возможность многочисленных согласований (вертикально направленный документооборот).
Docsvision. Позволяет не только создать удобный электронный архив, но и полностью перевести внутренний и внешний документооборот в электронный формат.
«ДЕЛО». Есть возможность хранения любых электронных документов. Позволяет обмениваться документами с другими СЭД. Можно синхронизировать с учетными бухгалтерскими системами.
Directum. Система предназначена для внутреннего и внешнего документооборота. Автоматически классифицирует входящие документы, заполняет реквизиты документов. Обеспечивает быстрый поиск информации с учётом содержания документов.
Преимущественно СЭД хранят документацию по иерархии — «папка/полка/шкаф». При этом один документ порой находится в составе нескольких папок или полок. Это обеспечивается за счет использования ссылок. Сам исходный документ сохраняется на своем месте в хранилище.
Любому документу в СЭД присваивают определённые атрибуты, по которым в дальнейшем будет осуществляться поиск. Например, название и регистрационный номер документа, автор, время создания и прочее. Для разных типов документов могут применяться разные атрибуты, но для документов одного типа атрибуты неизменны. Атрибуты документа хранятся в реляционной базе данных — совокупности взаимосвязанных таблиц, в которых указаны данные и характеристики объектов.
Для каждого типа документов в СЭД формируется шаблон карточки, в которой указаны наименования атрибутов документов. Когда в систему вносится новый документ, по соответствующему шаблону заполняют карточку, указывая в ней значения атрибутов. Заполненная карточка связана с самим документом. В дальнейшем, зная тип искомого документа и используя присвоенные атрибуты, можно найти необходимый документ за несколько минут.
Источник
Что такое оцифровка?
Сканирование, ретроконверсия и сопутствующие услуги. Обзор технологий перевода документов в электронный вид.
Существует несколько вариантов организации процессов оцифровки. Они могут производиться самостоятельно или с аутсорсингом услуг, с вывозом документов или выполнением работ на своей территории. При оцифровке могут применяться офисные, профессиональные документные или планетарные сканеры. Данные могут извлекаться в ручном, полуавтоматическом или автоматическом режимах, с проведением предварительной архивной обработки бумажных документов или классификацией информации уже в электронном виде и т.д.
Какой путь выбрать?
Решение зависит от конкретной задачи, потому что каждое из вышеупомянутых «или» определяет качество получаемого результата и стоимость работ. Например, извечен вопрос сшитых документов: выгодней медленно отсканировать в сшитом состоянии или потратиться на расшивку, зато быстро оцифровать на документных сканерах?
Самый простой способ выбрать наиболее подходящий для вас путь – обратиться за экспертизой к специализирующейся на оцифровке организации. Заинтересованные в работах, крупные компании проведут обследование бесплатно, и за вас определят оптимальный подход. Не пренебрегайте этой возможностью и не ждите склонения к заказу услуг: большинство этих компаний также заинтересованы в поставке оборудования и ПО для самостоятельной оцифровки.
Сколько документов нужно сканировать?
Определяющий параметр – объем документов.
Определяющий параметр – объем документов. Для ежедневного сканирования небольших пачек расшитых документов (например, первичной бухгалтерии) подойдет обычный офисный сканер, выдерживающий нагрузку в несколько тысяч страниц в день. Нужно лишь дополнить его удобной программой для индексирования.
Для регулярного сканирования больших объемов необходимо профессиональное оборудование. Это – промышленные сканеры, которые стоят немалых денег (подобное оборудование используют ФНС, ФТС, крупные банки). Поэтому менее дорогой альтернативой может стать рамочное соглашение на оказание периодических услуг оцифровки.
Перевод в электронный вид больших ретроспективных массивов своими силами экономически не обоснован: помимо закупки оборудования и обучения сотрудников, потребуются значительные трудовые и временные затраты. Однозначно эффективнее заказывать услугу, так как крупная компания может выделить большой штат и решить задачу оперативно.
Где сканировать документы?
Определяющий параметр – востребованность сканируемых документов. Влияет ли на деятельность организации изъятие документов на время сканирования? Особенно это критично при оцифровке документов, к которым регулярно обращаются сотрудники, либо которые могут быть внезапно запрошены контролирующим органом, а также для устранения связанных с документами ЧП. Примеры: финансовые и кадровые документы, техническая и эксплуатационная документация, книги ЗАГС и другие отраслевые фонды.
Участок сканирования, организованный в помещениях компании-заказчика услуг.
Если необходимо оцифровать их достаточно быстро, то традиционным подходом является заказ услуг с выездом бригады сканирования на вашу территорию. Зачастую это оказывается дешевле, чем доставлять документы на производство исполнителя и обратно, но все определяет территориальная удаленность. Регламент выездных работ подразумевает сканирование выданного дела в течение одного-двух рабочих дней, без длительного изъятия из рабочего процесса.
Расшивать ли документы?
Определяющие параметры: состояние документов и возможность расшивки. Если есть такая возможность, и бумага пригодна для протяжки документным сканером, то следует расшивать. Дело в том, что сканирование сшитых документов на планетарном (книжном) сканере в несколько десятков раз медленнее потоковой оцифровки. Пропорционально увеличиваются время работ и стоимость труда. Сканирование на документных сканерах, даже с учетом расшивки, оперативнее и дешевле.
Расшивать можно самостоятельно, а можно доверить это исполнителю.
Расшивать можно самостоятельно, а можно доверить это исполнителю: если выбрана авторитетная компания, опасаться утраты документов не стоит. Наоборот, жесткая регламентация всех процессов и качественные материалы позволяют компаниям застраховаться от дополнительных финансовых потерь и ущерба имиджу. Этому подходу доверяют даже российские суды: при организации сканирования обычно внутренним приказом разрешается расшивка и последующая сшивка судебных дел.
К слову, крупные компании параллельно могут провести профессиональную архивную обработку: во-первых, часть работ итак выполняется при подготовке к сканированию, во-вторых, архивная обработка помогает выявить невостребованные документы и сократить объемы сканируемых массивов, что может снизить стоимость работ.
Какое качество выбрать?
Сегодня высококачественно можно отсканировать любой объект: от маленькой библиотечной карточки до карт формата 8А0 и театральных декораций.
Определяющие параметры: вид документа и объем получаемого ресурса в электронной форме. Сегодня сканирующее оборудование позволяет получать образы с разрешением от 200 до 1200 точек на дюйм (dpi). Для художественных произведений обычно применяется разрешение 400–600 dpi, позволяющее создавать высококачественные репродукции. Более высокое качество используется только при необходимости увеличения изображения и детализации мелких предметов, например, монет.
Детализированные и неконтрастные чертежи, часто выполненные на кальке и синьке, нуждаются в сканировании с разрешением 300-400 точек на дюйм и дополнительной обработке изображений в графических редакторах. Остальные документы обычно сканируются с разрешением 300 dpi, достаточным для распечатки копий без потери качества. Необходимая обрезка изображений, геометрическое исправление, цветокоррекция, конвертация в форматы pdf, tiff, jpegи др. может проводиться в полностью автоматическом режиме программами, встроенными в сканирующее оборудование или поставляемыми вместе с ним.
В большинстве случаев используется цветной режим съемки. Это нужно для всех документов, в которые вносились исправления или ставились печати поверх текста, для удостоверения того, что электронная копия снималась с оригинала документа с печатью и подписью, а также для читаемости угасающих текстов и передачи уникальных особенностей оригинала. Необходимость цветного сканирования художественных произведений не обсуждается. Режим «градации серого» применяется лишь в некоторых случаях: когда документы не содержат цветных атрибутов, либо когда необходимо сократить объем получаемого электронного ресурса.
Сканирование может осуществляться самостоятельно. Главной задачей становится обучение сотрудников правильной работе со сложной техникой, так как качество получаемых изображений важно для последующего индексирования: плохо отсканированный документ, тени, засветка и другие дефекты на электронном образе могут сделать нечитаемой важную информацию. Это не позволит применить технологии автоматического извлечения данных и может привести к ошибкам в индексировании. Загрузка ошибочных данных в некоторые системы (государственные реестры, бухгалтерские учетные системы) не позволительна.
Индексирование
Простое сканирование применяется редко, поскольку при последующей работе искать информацию в наборе графических файлов будет лишь немногим проще перелистывания бумаги. Для возможности поиска необходимо выделить в документе несколько атрибутов (индексных полей).
Сотрудники, задействованные в массовом индексировании документов методом ручного ввода.
Выделенные атрибуты можно внести в имя файла. Такая практика сложилась в российских судах: для того чтобы оператор сканирования не имел доступа к внутренним системам суда, при оцифровке все необходимые реквизиты вносятся в имя файла. В последующем эти реквизиты распознаются системой судопроизводства при загрузке каждого документа по отдельности.
Но обычно оцифрованные документы загружаются в информационную систему группой, что требует создания базы данных. Так, если необходимо прикрепить документ к уже существующей карточке в учетной системе, бывает достаточно извлечь пару однозначно определяющих его реквизитов – обычно номер и дату.
Если же нужно сформировать поисковую базу на основании самих документов, то объем извлекаемых данных определяется задачей: от пары реквизитов для поиска файла в электронном архиве до переноса всей значимой информации в аналитическую БД (ФИО, адресов, ИНН, КПП, дат, номеров документов-приложений и т.д.).
Свои правила индексирования применяются в музеях, библиотеках и архивах при оцифровке единиц хранения и учетных документов. Отдельным направлением услуг также является векторизация, которая применяется, в частности, при оцифровке каротажных лент (автоматическая) и чертежей (ручная отрисовка в CAD-системах).
Сколько данных извлекать?Ответ на этот вопрос также лучше получить, воспользовавшись экспертизой, так как количество извлекаемых реквизитов зависит от функциональной задачи и в значительной мере определяет стоимость оцифровки. В некоторых случаях можно ограничиться подборками документов, когда электронные образы объединяются под эгидой основного документа (например, договора или реестра счетов). В других необходимо извлечение всех содержащихся в документе данных для заполнения карточки информационной системы.
Примеры извлекаемых данных
Анализ размещенных на портале zakupki.gov.ru заказов компаний с государственным участием и госучреждений (44-ФЗ, 223-ФЗ), показывает, что:
– Для привязки электронных копий ОРД к системе электронного документооборота достаточно номера, даты и типа документа.
– Сканирование финансовой документации часто сопровождается извлечением номера, даты, наименований и реквизитов плательщиков, сумм.
– Оцифровка архивных документов муниципалитетов (постановления администраций, горисполкомов, сельсоветов и т.д.) в целях оказания услуг и инвентаризации объектов земельно-имущественных отношений требует извлечения номера и даты документа, всех встречаемых ФИО и адресов. Причем адреса необходимо сопоставлять с текущими справочниками КЛАДР/ФИАС.
– Оцифровка документов Архивного фонда РФ сопровождается строгим заполнением НСА и описанием фондов в соответствии с архивным законодательством.
– Индексирование описей и реестров подразумевает распознаванием всех порядковых записей.
– Для работы с чертежами в электронном виде необходимо извлечь практически все поля штампа.
– Сканирование составных дел требует не только извлечения реквизита каждого документа, но и установления взаимосвязей. Наиболее сложен случай конструкторской документации, где формируемая база данных обладает многоуровневой иерархией и связями документов.
Источник: zakupki.gov.ru, 2015
Какие методы извлечения данных выбрать?
Определяющий параметр – качество текста. Применяемые технологии, скорость и стоимость формирования баз данных зависят от того, как написан и в каком состоянии находится текст документа.
Напечатанный на современном принтере текст может быть автоматически распознан, необходимые данные могут быть извлечены с использованием различных автоматизированных методов: применением шаблонов и автоэкстракцией индексов (алгоритмы определения ключевых слов, семантического анализа и т.д.). Эти методы быстрые, и в большинстве случаев их стоимость ниже цены ручного распознавания.
Напечатанные необычным шрифтом, в низком качестве или поврежденные тексты книг, газет, архивных документов распознаются не всегда или с недостаточной точностью. Поэтому в большинстве случаев требуется ручной ввод или, по крайней мере, ручная проверка сведений. Предварительно для каждого ресурса формируются или подключаются внешние справочники, которые помогают операторам индексирования и значительно ускоряют процесс.
Документы с рукописным текстом индексируются только вручную. Это гораздо более медленный и дорогой процесс. Поэтому крупные компании применяют уникальные технологии, служащие ускорению обработки и, соответственно, снижению цены без потери качества. Показателен пример официальной переписки: в этих документах традиционно реквизиты печатаются, а номер и дата проставляется вручную по факту, что делает невозможным полноценное программное индексирование.
Можно ли провести индексирование самостоятельно?
Альтернативой является технология извлечения данных с помощью анализа текста, применимая для любых документов, в том числе неструктурированных. Этот метод зачастую более доступен по цене, но предлагается только парой крупных компаний, так как требует накопления серьезной семантическо-морфологической базы для каждой отрасли деятельности.
Самостоятельное индексирование возможно, причем как ручное, так и автоматизированное. Но есть ограничения. Программу распознавания текста приобрести легко. Настроить извлечение данных сложнее: для формализованных (например, счет-фактура) и условно структурированных документов (например, договор) нужно программирование форм — мест и алгоритмов определения требуемых реквизитов. Однако программы стоят денег: распознавание текста обычно тарифицируется полистно (лицензия), а за создание шаблонов форм придется заплатить отдельно. Поэтому при оцифровке большого количества видов документов (около 40) стоимость этого метода сравнивается со стоимостью ручного индексирования.
Можно также вносить данные напрямую в информационную систему. Однако этот способ связан с высокой вероятностью ошибок, отследить которые в системе крайне сложно. При самостоятельном индексировании рекомендуется сначала создавать определенную базу данных, которую перед загрузкой можно проверить.
Именно так работают специализирующиеся на оцифровке компании: жесткая регламентация процесса, с протоколированием всех действий, и обязательная проверка сформированного массива ОКК позволяет минимизировать количество возможных ошибок. Например, корпорацией ЭЛАР в официальных договорах и контрактах используется стандартный критерий качества ≥99,8%. Теме выборы критериев качества будет посвящена одна из следующих статей.
Источник