OSeeR: Я знаю, что вы там делали

Родился от альтруистических корней до недавнего перехода к неэтичным практикам.

В этом блоге вы пройдете путь OCR от простых преобразователей азбуки Морзе до всемирно принятого бизнес-инструмента нового поколения, который используется для обеспечения инновационного преимущества перед конкурентами.

Показатель

Что такое OCR?

Как вы думаете, кто вы: OCR Edition

Софт дает отпор «»

Преимущества OCR

Доступность

Вызовы

Кто использует оптическое распознавание символов

OCR в дикой природе

Библиография «»

Что такое OCR?

"[Показатель]"

Оптическое распознавание символов или OCR - это часть программного обеспечения, которое интерпретирует пятна цветов и форм на цифровом изображении как текст или нет - подумайте об этом как о пациенте, выполняющем тест на глазную карту оптика.

Как вы думаете, кто вы: OCR Edition

"[Показатель]"

OCR можно проследить до 1809 года, когда были выданы первые патенты вокруг OCR в исследованиях. Однако его первая физическая сущность возникла во время Первой мировой войны, выросшей из телеграфии - его самого раннего предка, если хотите, - когда физик Эмануэль Голдберг изобрел машину, которая могла читать символы и преобразовывать их в телеграфный код. Позже он использовал распознавание образов, встроенное в фотоэлемент, для извлечения информации с пленки, на которой в то время хранилась информация.

Хотя эта машина была революционной в свое время, она перепрофилировала существующее оборудование, такое как кинопленки, которые работали в краткосрочной перспективе, но становились все менее адекватными по мере того, как время шло, и информация больше не сохранялась на пленке. Шаг вперед изобретатель Дэвид Шепард, который разработал Gismo, или, скорее, Gismo в 1951 году. Эта машина переводила печатные сообщения в форму, понятную машинам. Gismo распознавал только простые открытые шрифты, и поэтому Шепард изобрел шрифт, который отвечал этим условиям. Сможете угадать, какой шрифт изобрел Шепард? Если вы подумали: Comic Sans, то я рекомендую вам уйти, но для норм, это был шрифт, который сегодня используется на кредитных картах. ³

Эти ограничения шрифта ограничивали удобство использования ранних машин, поскольку они могли интерпретировать только избранные сообщения. Однако в 1970-х годах Рэй Курзуэлл изобрел омни-шрифт OCR, который был способен обрабатывать печатные документы практически любым шрифтом ¹ - имейте в виду, что количество доступных шрифтов в то время было меньше, чем сегодня, например, Comic Sans был не развивались еще 20 лет - как же им повезло!

Сегодня OCR широко применяется и используется в коммерческих целях во множестве секторов, включая медицинский, финансовый и коммерческий.

Продолжая рассматривать родословную OCR, мы переходим к его ближайшему родственнику - оптическому распознаванию меток или OMR. Подобно распознаванию физических знаков, OMR проще ищет наличие или отсутствие знака, сделанного чернилами ручки, графитным карандашом или чем-то подобным. Из-за своей простоты OMR преимущественно использует аппаратные сканеры для обработки документов, и такие компании, как DRS, специализируются на их изготовлении. Стоит отметить, что он несколько движется в цифровую эру из-за множества преимуществ, изложенных в этом блоге.

OCR также распознает наличие меток, но затем выполняет дополнительную задачу по определению буквенно-цифрового символа, который является контрабандой. Эта дополнительная задача намного сложнее, чем просто определить, есть ли, и поэтому OCR преимущественно использует программное обеспечение. Однако более ранние адаптации ограничивались использованием аппаратного обеспечения или, когда раннее программное обеспечение было объединено с аппаратными сканерами, превосходили свои гибридные аналоги, как описано в этой статье 1996 года.

Программное обеспечение сопротивляется

"[Показатель]"

Однако сегодня программное обеспечение возвращает себе корону. Машинное обучение (ML) - это такая разнообразная область вычислений, которая решает широкий спектр проблем. Одна из этих проблем связана с компьютерным зрением и его разновидностью - OCR. Существует множество умных методов, используемых для решения этой проблемы, некоторые из которых описаны в этом блоге, но новый и интересный термин - глубокое обучение. Глубокое обучение может быть применено к OCR в том, что некоторые называют OCR следующего поколения, как Tim и Abhinav. Относительно новая форма этого - CapNets.

Помимо извлечения необработанного текста, дополнительные проблемы создают структура текста и осведомленность о содержании. Глубокое обучение снова можно применить для понимания структуры документа. Эта комбинация моделей, работающих в гармонии, может создавать очень мощные приложения для извлечения текста, комбинировать их с конвейерами для автоматизации монотонных задач, и у вас есть очень полезный бизнес-инструмент.

Преимущества OCR

"[Показатель]"

OCR дает много преимуществ:

  • Повышенная точность; текст документов более точен, чем те, которые были расшифрованы вручную
  • Пропускная способность; Использование компьютеров для расшифровки документов, а не людей, снижает различия в производительности и качестве, позволяя делать более точные оценки рабочей нагрузки
  • Автоматизация; цифровые бизнес-модели, которые получают и обрабатывают данные, могут относительно просто включать OCR в конвейеры
  • Редактируемые документы; документы можно обрезать, переупорядочивать и выделять в соответствии с потребностями пользователей
  • Документы с возможностью поиска; документы могут храниться в огромных хранилищах данных, что позволяет выполнять поиск, как в случае с историческими текстами
  • Доступность; документы можно использовать для программ чтения с экрана

Доступность

"[Показатель]"

Первоначальная цель OCR заключалась в предоставлении услуг для пользователей, находящихся в неблагоприятном положении; слабовидящие: частичная или полная слепота или умственно отсталые: дислексия, аутизм и т. д.

Примерно в то же время, когда г-н Голдберг изобрел телеграфный перевод, ученый Эдмунд Эдвард Фурнье д’Альбе разработал оптофон. Это было устройство, которое преобразовывало текст в звук, чтобы глухие люди могли читать.

В одних только Соединенных Штатах Америки около 7 675 600 человек могут быть отнесены к категории лиц с нарушениями зрения. Это означает, что они требуют использования специального программного обеспечения, известного как программы чтения с экрана, для доступа к веб-сайтам и цифровым документам или файлам PDF. Проблема с ними в том, что они изначально недоступны для людей с проблемами зрения. Доступность нужно добавить после. Чтобы добавить это, PDF-файлы требуют, чтобы программное обеспечение OCR считывало документ и создавало скрытые теги PDF, которые обеспечивают структуру документа для программ чтения с экрана . Эти теги, которые представляют отдельные элементы на странице, хранятся в иерархическом дереве. Существует множество различных приложений, которые включают эти функции, включая чтение и запись для Windows и Mac или Texthelp Snapverter Google Chrome, который использует документы на Google Диске.

Рекомендации WCAG 2.0:

Руководящий принцип 1.4.5 «Если используемые технологии могут обеспечить визуальное представление, для передачи информации используется текст, а не изображения текста, за исключением следующего: (Уровень AA)

Настраиваемый: изображение текста можно визуально настроить в соответствии с требованиями пользователя;

Существенно: конкретное представление текста имеет важное значение для передаваемой информации ». (W3C)

В этом указателе указано, что текст изображения должен быть доступен для редактирования пользователем в соответствии со своими потребностями. OCR позволяет это, позволяя программному обеспечению выполнять целый ряд функций, включая:

  • Выделение текста
  • Изменение цвета и шрифта текста и изменение размера
  • Умение пользоваться цифровыми словарями, тезаурусами и переводчиками.

Эти функции, среди прочего, могут помочь в случаях использования, таких как люди с дислексией, как объясняется в этой статье.

Вызовы

"[Показатель]"

На способность обнаруживать текст на странице, конечно, может во многом влиять качество страницы, на которой он пытается быть прочитан. Складки, пятна и разрывы могут затруднить нам считывание информации со страницы, и когда она вводится в компьютерную систему, эти трудности могут быть усилены, не говоря уже о проблемах размытия, вспышек и т. Д. вращения и т. д. добавлены при их сканировании.

Предыдущие примеры обработки OCR были сосредоточены только на извлечении необработанного текста, однако для многих документов представленный текст не имеет смысла без контекста. Подумайте о своих водительских правах, в них есть поля, в которых хранятся ваши данные. Эта связь между полем и значением теряется при распознавании методом грубой силы, и поэтому необходимо учитывать тип документа, чтобы получить из него значение. Эта классификация типов документов требует дополнительной формы ML. Однако здесь есть проблемы, многие из которых описаны в этой статье.

Однако камнем преткновения для переводчиков всегда был почерк. Методы машинного обучения дали фантастические результаты в наборе данных MNIST (однозначные рукописные буквы), при этом следует отметить сверточную нейронную сеть (CNN). Этот блог предоставляет более подробную информацию об этом. Однако, думая о почерке как о словах, предложениях и абзацах, эта идея моделирования его как простых отдельных букв наивна; Разработка модели, способной распознавать почерк во всех его формах, чрезвычайно сложно.

Вышеупомянутые проблемы подчеркивают, что получение 100% точной транскрипции неразумно и почти невозможно даже с развитием машинного обучения. Однако существуют онлайн-сообщества, которые сканируют, изменяют и загружают исправленные переводческие документы, чтобы другие могли использовать их в онлайн-библиотеках. Такие библиотеки, как Bookshare и Learning Ally, содержат доступные документы и аудиокниги.

Кто занимается распознаванием текста?

"[Показатель]"

Сегодня предлагается множество различных услуг OCR.

Abbyy’s FineReader предоставляет мощный движок OCR, построенный на архитектуре Azure, с широким набором функций, подходящих для использования в бизнесе, и мобильным эквивалентом. В дополнение к настольному приложению они также предоставляют облачное решение, доступ к которому осуществляется через SDK. Программа хорошо себя показала в этой сравнительной статье, однако услуга стоит примерно 7 пенсов за страницу.

Предложения от Microsoft, Google и Amazon устраняют этот барьер в расходах с помощью рентабельных облачных решений, взаимодействующих с помощью SDK и вызовов API, по цене доли пенса за транзакцию. Эти решения также обеспечивают расположение текста в изображении в пикселях и взаимосвязь между текстом, например строка, слово, буква. Textract Amazon также обеспечивает взаимосвязь в формах и счетах между текстовым полем и значением. Производительность этих сервисов значительно различается, и если вы хотите, чтобы эти 3 титана сражались лицом к лицу в битве за производительность, то загляните в другой мой блог!

Tesseract (от Google) и Kraken (приятная оболочка для OCRopus) придают миксу некоторую открытость. Эти пакеты требуют дополнительной разработки, чтобы интегрировать их с системой. Для более глубокого сравнительного анализа загляните в этот блог.

OCR в дикой природе

"[Показатель]"

В медицинском секторе OCR используется для преобразования документов пациентов и счетов-фактур в цифровые копии, чтобы соответствовать протоколам HIPAA, но также и с общей целью - быть полностью безбумажной. Кроме того, этими цифровыми документами можно делиться с другим персоналом, но они также совместимы для связи с роботизированными платформами автоматизации процессов. ¹⁰

Этот репозиторий GitHub предоставляет урезанную версию Abbyy’s FineReader для извлечения табличных данных из документов.



Оцифровка исторических бумажных документов позволяет сделать их доступными для поиска.



В 2011 году около 1700 портов по всему миру установили программное обеспечение OCR для автоматизации процессов и управления состоянием морских контейнеров.



Возвращаясь к доступности, OCR можно использовать для тестирования мобильных приложений во время их постоянно сокращающегося времени выпуска и последующей фазы приемлемого тестирования пользователем.



OCR также используется для сканирования кодов ваучера, показаний счетчиков, регистрации в отелях или сканирования билетов на фестивали.





Распознавание номерных знаков - одно из наиболее широко используемых методов распознавания текста, позволяющее сканировать миллионы автомобилей в месяц.

Департамент по предупреждению преступности начал использовать его, но есть озабоченность по поводу политики хранения данных и неэтичного обмена данными.





Это использование распространяется и на другие секторы с ресторанами быстрого питания, которые стремятся создавать индивидуальные меню для постоянных клиентов и хранить информацию о карте для оплаты «оставьте свой кошелек дома».



Математические и научные уравнения и обозначения можно извлечь с помощью этого репозитория GitHub.



Дополнительную информацию о программном обеспечении и литературе по оптическому распознаванию текста можно найти в этом репозитории.

Если вам интересно узнать обо всем, что связано с технологиями, от виртуального погружения до квантовых вычислений, ознакомьтесь с серией блогов команды Applied Innovation!

Библиография

"[Показатель]"