HomeРазноеЭталоны для abbyy finereader 12: Выбор эталона для работы в FineReader; как использовать эталоны – видеоурок TeachVideo

Эталоны для abbyy finereader 12: Выбор эталона для работы в FineReader; как использовать эталоны – видеоурок TeachVideo

Содержание

Неочевидные возможности ABBYY FineReader / Блог компании ABBYY / Хабр

Каждая следующая версия ABBYY FineReader становится всё более интуитивно понятной. В частности, в последние версии включена система встроенных сценариев, которые дают возможность выполнить стандартные последовательности действий за несколько щелчков мышью. Так мы стараемся облегчить работу с программой для большинства наших пользователей. И, тем не менее, FineReader обладает рядом возможностей, которые не лежат на поверхности, но могут быть полезны пользователям «продвинутым». О нескольких таких возможностях мы расскажем в этом посте.

Начнем с функции создания языков в ABBYY FineReader 10 Professional Edition. Для чего и кому это нужно? В основном, для тех, кто занимается распознаванием текста, содержащего много специфических конструкций, например, артикулов, небуквенных символов, аббревиатур или цифр. На первый взгляд кажется, что такие случаи бывают редко, но мы довольно часто сталкиваемся с подобными вопросами от наших пользователей. Например, интересный случай был описан на форуме FineReader, где пользователю нужно было распознать книгу по покеру, в которой, разумеется, встречались символы-масти. Чтобы решить проблему с корректным отображением мастей, мы посоветовали создать в программе новый язык. Эта процедура облегчает работу с подобными документами и значительно сокращает время их обработки. Сам процесс создания не займет много времени и не требует специфических знаний, здесь просто нужно быть внимательным. Чтобы вам легче было разобраться, мы покажем, как это делается.

Основной диалог, в котором настраиваются параметры нового языка, вызывается из меню Сервис -> Редактор языков нажатием кнопки Новый…. Язык создается на основе одного из существующих, поэтому перед тем как редактировать свойства нового языка, выберите тот, который будет принят за основу. Если текст, который вы будете распознавать, на русском языке, его и стоит выбрать в качестве базового. Открываем окно Свойства языка.

«

Нетрудно догадаться, что начинать данный процесс придется с создания алфавита. Нажимаем кнопку редактирования и попадаем в диалог с широкими возможностями для создания собственного алфавита: здесь можно добавить любые символы из более чем шестидесяти наборов – от привычной кириллицы до специальных математических и декоративных. Находим нужные символы, добавляем их в алфавит и закрываем окно редактирования.

Кроме возможности добавления символов в алфавит, существует обратная процедура – исключение ненужных символов. Например, если вы распознаете книгу 60-70 годов выпуска, то имеет смысл убрать из языка распознавания такие символы, как & # @. Так мы поможем программе исключить ненужные варианты при распознавании нечётко пропечатанных букв.

После того как работа с алфавитом завершена, нужно выбрать словарь, который будет использоваться системой при распознавании и проверке, и указать дополнительные свойства (например, символы, которые могут встречаться в начале и конце слова и т.д.). Теперь FineReader готов к распознаванию вашего текста.

Когда вы создавали новый язык, наверняка заметили вторую опцию, доступную в диалоге Редактор языков – «Создать новую группу языков». Пригодится она тем, кому приходится распознавать документы, тексты которых составлены одновременно на нескольких нетрадиционных языках одновременно. Например, вам внезапно понадобилось распознать научную диссертацию, составленную на языках аймара, конго и зулу…

Сразу напомню, что в программе есть и предопределённые группы языков. Они используются для распознания документов, составленных на двух-трех распространенных языках, например, на русском и английском, или на английском, немецком и французском и т.д. Для таких документов создавать новую группу каждый раз совсем не обязательно. А если вам вдруг понадобится сочетание китайского упрощенного и простых химических формул, или английского и того, который вы ранее создали сами, то вам сюда. Смело устанавливайте флажок на опцию «Создать новую группу языков» и из предложенного списка выбирайте и добавляйте нужные вам языки. Не забудьте придумать оригинальное название для вновь созданной группы – тогда вы сможете использовать ее в следующий раз.

Следующая возможность – «Распознавание с обучением» – пригодится, когда нужно распознать текст, напечатанный декоративным шрифтом. В таких случаях составить алфавит из имеющихся символов просто физически невозможно, но зато вы сможете создать свой эталон букв, которые будут использованы в тексте, и с их помощью распознать декоративный шрифт. Еще эту возможность удобно использовать при распознавании текста с большим количеством сложных математических формул и для больших объемов текста плохого качества.

Если вы все же решились на создание эталона, отправляйтесь в меню Сервис -> Опции на вкладку Распознать. Здесь в группе Обучение нужно установить флажок в положение Распознать с обучением и нажать кнопку Эталоны, которая вызывает диалог создания нового эталона. Введите название для нового эталона, закройте все открытые диалоги и начинайте процесс распознавания. Как только встретится незнакомый символ, откроется диалог Ручное обучение эталона с изображением этого символа.

В результате распознавания вы получите именно те значения незнакомых символов, которым научили FineReader сами. Вот таким нехитрым способом происходит обучение FineReader. Кстати, созданные эталоны можно сохранять – тогда вы сможете их использовать их несколько раз, а также редактировать при необходимости.

Сегодня мы рассказали вам о двух возможностях FineReader, о которых вы, возможно, еще не знали и которые, быть может, окажутся вам полезными. Эти и другие интересные функции FineReader описаны в справке, поэтому рекомендуем вам иногда туда заглядывать.

Алиса Рахманова,

Департамент продуктов для распознавания текстов

10 способов бумажного шифрования для школьников с помощью ABBYY FineReader / Блог компании ABBYY / Хабр

Создание шифровки

Скопируем текст в MS Word, сделаем его одного размера и форматирования, и применим к нему какой-нибудь иконочный шрифт, такой как Webdings или любой другой. Распечатаем и отправим полученную шифровку другу.

Ваш друг, конечно, моряк, и легко и быстро прочитает полученную шифровку. Но представим, что вы отправили другу не строчку, а много строчек. Что делать тогда?

Подготовка к расшифровке

Создание ключа

Для того чтобы ваш друг мог её легко расшифровать, ему нужно передать ключ. В некоторых случаях ключ может создать он сам. Но мы поможем ему в этом нелёгком деле и аналогично шифровке создадим следующий файл:

Внимательный читатель может заметить, что флагов тут ровно 26, и предположить, что видит перед собой английский алфавит, и, конечно, будет прав.

Создание эталонов

Сканируем ключ в FineReader. Выбираем английский язык распознавания, распознавание с обучением и запрещаем использовать встроенные эталоны. Нажимаем «Распознать». Теперь про каждую букву нас будут спрашивать, что это за буква:

Набираем по очереди буквы алфавита и нажимаем «Поезд». 52 нажатия – и эталон готов. Не забудьте сохранить эталоны для дальнейшего использования, иначе обучение придется делать каждый раз. Полученные эталоны можно посмотреть в редакторе эталонов:

Весь этот процесс занимает 5-10 минут, но может занять больше времени, если вы не знаете расположение английских букв. В этом случае рекомендуется помечать на клавиатуре уже использованные клавиши, чтобы ускорить поиск оставшихся.

Расшифровка

Теперь выключаем режим обучения, сканируем и распознаем сам текст шифровки. Вуаля – и мы имеем результат:

Внимательный читатель скажет: ну и что? Зачем это нужно? Как ни странно, этому можно найти много применений, например:

• создать эталоны для шрифта xkcdRightHand и легко извлекать тексты с картинок любимого комикса;

• создать эталоны для какого-нибудь нестандартного шрифта и оцифровать старую книгу;

• осуществлять быстрый поиск по эльфийским книгам, написанным на тенгваре или кертаре;

• помощь в оцифровке текстов, автор которых считает себя самым умным и вставляет везде странные знаки.

Начинающий конспиролог скажет, что взломать такой шифр – как раз плюнуть: смотрим статистику использования букв, анализируем короткие слова – и ключ разгадан. В этом случае добавляем в исходный текст мусорные символы, либо кодируем его в Base64. А теперь представьте себе, что для шифрования используется, например, ж-шрифт:

Я думаю через пару минут визуального анализа, в голове будут одни Ж.

Создание шифровки

Берем книгу с полки, которую не жалко. Я уверен, что сейчас сюда набегут люди, которые скажут, что таких книг не бывает. Но поверьте: раз уж вы встали на путь шифрования, то для вас не должно быть ничего святого. Поэтому — вперёд. Берем книгу, и (впечатлительным дальше лучше не читать) ручку, вспоминаем, что передать мы хотим только одно слово: «сосна», листаем книгу, находим искомое на 117 странице, и модифицируем:

Закрываем книгу и отправляем её другу.

Подготовка к расшифровке

Придумывание секретных слов

Заранее согласуем с другом набор секретных слов, которые должны удовлетворять следующему условию: в них должны быть буквы «с» или «л», например, сосна, сквиталась, логопед.

Создание словаря

Друг сохраняет эти слова в txt файл, с небольшими изменениями: оосна, еквиталась, погопед; после чего импортирует его в пользовательский словарь свежесозданного языка в FineReader:

Расшифровка

Сканируем полученную книгу и распознаём её нашим языком. Ищем в тексте видоизмененные слова, находим «оосна» и радуемся. Таким образом испортив использовав всего одну книгу, мы передали секретное слово. Данная методика основана на том, что при распознавании схожих букв используется проверка по словарю, а мы специально исковеркали слова и создали под них словарь. Если сторонний человек не знает список секретных слов, то ему будет тяжело выделить одно то самое слово из книги, потому что при распознавании встроенным языком распознавания оно распознается как «сосна», благодаря той самой проверке по словарю.

А вообще создание собственных словарей позволяет улучшить распознавание часто встречающихся имен собственных, аббревиатур и последовательностей буквоцифр, для этого в пользовательском языке вместо словаря можно указать регулярное выражение для проверки.

А закончить мы хотим следующими словами:

Техническая спецификация — ABBYY FineReader Engine













ABBYY




  • Контакты


  • Интернет-магазин

  • Русский

    Chinese
    中文

    Croatian
    Hrvatski

    English
    English

    French
    Français

    German
    Deutsch

    Hungarian
    Magyar

    Italian
    Italiano

    Japanese
    日本語

    Korean
    한국어

    Polish
    Polski

    Portuguese
    Português

    Russian
    Русский

    Spanish
    Español

    Ukrainian
    Украïнська





  • Отправить




    • {{link.text.toLowerCase()}}

    Решения для бизнеса

Полный набор технологий распознавания — ABBYY FineReader Engine













ABBYY




  • Контакты


  • Интернет-магазин

  • Русский

    Chinese
    中文

    Croatian
    Hrvatski

    English
    English

    French
    Français

    German
    Deutsch

    Hungarian
    Magyar

    Italian
    Italiano

    Japanese
    日本語

    Korean
    한국어

    Polish
    Polski

    Portuguese
    Português

    Russian
    Русский

    Spanish
    Español

    Ukrainian
    Украïнська





  • Отправить




    • {{link.text.toLowerCase()}}

    Решения для бизнеса

Быстрый старт, обучающее видео для новичков













ABBYY




  • Контакты


  • Интернет-магазин

  • Русский

    Chinese
    中文

    Croatian
    Hrvatski

    English
    English

    French
    Français

    German
    Deutsch

    Hungarian
    Magyar

    Italian
    Italiano

    Japanese
    日本語

    Korean
    한국어

    Polish
    Polski

    Portuguese
    Português

    Russian
    Русский

    Spanish
    Español

    Ukrainian
    Украïнська





  • Отправить




    • {{link.text.toLowerCase()}}

    Решения для бизнеса

Возможности ABBYY FineReader Engine













ABBYY




  • Контакты


  • Интернет-магазин

  • Русский

    Chinese
    中文

    Croatian
    Hrvatski

    English
    English

    French
    Français

    German
    Deutsch

    Hungarian
    Magyar

    Italian
    Italiano

    Japanese
    日本語

    Korean
    한국어

    Polish
    Polski

    Portuguese
    Português

    Russian
    Русский

    Spanish
    Español

    Ukrainian
    Украïнська





  • Отправить




    • {{link.text.toLowerCase()}}

    Решения для бизнеса

Многофункциональный PDF — редактор ABBYY FineReader PDF 15, OCR программа













ABBYY




  • Контакты


  • Интернет-магазин

  • Русский

    Chinese
    中文

    Croatian
    Hrvatski

    English
    English

    French
    Français

    German
    Deutsch

    Hungarian
    Magyar

    Italian
    Italiano

    Japanese
    日本語

    Korean
    한국어

    Polish
    Polski

    Portuguese
    Português

    Russian
    Русский

    Spanish
    Español

    Ukrainian
    Украïнська






  • Отправить

Если ваш распечатанный документ содержит нестандартные шрифты

  • Продукты
    ИНДИВИДУАЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ

    FineReader Редактируйте, конвертируйте и сравнивайте файлы PDF и сканированные изображения.

    АВТОМАТИЗАЦИЯ ДЛЯ ВСЕЙ КОРПОРАТИВНОСТИ

    Vantage

    Платформа, обеспечивающая навыки Content IQ, чтобы сделать цифровой персонал умнее.FlexiCapture

    Собирайте полезные данные из любых документов, от структурированных форм и опросов до неструктурированных документов с большим объемом текста.

    FineReader Server

    Разверните серверное решение OCR большого объема для преобразования документов.

.

О программе ABBYY FineReader 12 Sprint

  • Продукты
    ИНДИВИДУАЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ

    FineReader Редактируйте, конвертируйте и сравнивайте файлы PDF и сканированные изображения.

    АВТОМАТИЗАЦИЯ ДЛЯ ВСЕЙ КОРПОРАТИВНОСТИ

    Vantage

    Платформа, обеспечивающая навыки Content IQ, чтобы сделать цифровой персонал умнее.FlexiCapture

    Собирайте полезные данные из любых документов, от структурированных форм и опросов до неструктурированных документов с большим объемом текста.

    FineReader Server

    Разверните серверное решение OCR большого объема для преобразования документов.

.

Опции сканирования и открытия

  • Продукты
    ИНДИВИДУАЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ

    FineReader Редактируйте, конвертируйте и сравнивайте файлы PDF и сканированные изображения.

    АВТОМАТИЗАЦИЯ ДЛЯ ВСЕЙ КОРПОРАТИВНОСТИ

    Vantage

    Платформа, обеспечивающая навыки Content IQ, чтобы сделать цифровой персонал умнее.FlexiCapture

    Собирайте полезные данные из любых документов, от структурированных форм и опросов до неструктурированных документов с большим объемом текста.

    FineReader Server

    Разверните серверное решение OCR большого объема для преобразования документов.

.

Что такое ABBYY FineReader 12 Sprint

  • Продукты
    ИНДИВИДУАЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ

    FineReader Редактируйте, конвертируйте и сравнивайте файлы PDF и сканированные изображения.

    АВТОМАТИЗАЦИЯ ДЛЯ ВСЕЙ КОРПОРАТИВНОСТИ

    Vantage

    Платформа, обеспечивающая навыки Content IQ, чтобы сделать цифровой персонал умнее.FlexiCapture

    Собирайте полезные данные из любых документов, от структурированных форм и опросов до неструктурированных документов с большим объемом текста.

    FineReader Server

    Разверните серверное решение OCR большого объема для преобразования документов.

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *