Обяснени типове документи: структурирани, полуструктурирани и неструктурирани

Когато започнете да търсите решение за интелигентна обработка на документи (IDP) за вашия бизнес, един от първите въпроси, които продавачите ви задават, е какъв вид документи имате? Те очакват да дадете отговор от един от трите варианта - структуриран, неструктуриран или полуструктуриран. Но няма един окончателен отговор какъв вид документи попадат в коя категория. Нека да разгледаме по-отблизо..

Структурирани данни срещу неструктурирани данни

Преди да започнем да говорим за документи, би било редно да поговорим откъде идва този разговор. Исторически системите за транзакции съхраняват и обработват данни, които живеят в бази данни. Повечето от тези данни имат ясна структура - всеки елемент от данни има тип, определена дължина и в някои случаи възможни стойности. Преди това тези данни живееха в чисто структурирани таблици като редове и колони в база данни. Ето как изглеждаха тези данни:

С течение на времето системите започнаха да работят с дълги текстови данни, които бяха съставени от дълги низове от въведени знаци. Това бавно беше допълнено с изображения, видеоклипове, електронни таблици, аудио файлове и всякакви други видове мултимедийно съдържание. Тези данни се наричат колективно неструктурирани данни, тъй като нямат фиксиран формат.

Когато разглеждате документи от този обектив, всички документи заедно могат да бъдат категоризирани в категорията на неструктурираните данни. Това е първата точка на объркване - неструктурираните данни и структурираните данни не се съпоставят със структурирани документи и неструктурирани документи.

Всички документи са неструктурирани данни! Но в тези документи можете допълнително да ги класифицирате в три категории въз основа на това как изглеждат:

Структурирани документи
Полуструктурирани документи
Неструктурирани документи

Структурирани документи

Това са документите, които имат фиксиран формат, подобно на техните братовчеди със структурирани данни. Обикновено ще ги видите като формуляри, фишове за плащане или сметки за комунални услуги от доставчик. Докато работите само с един доставчик, вие имате работа със структурирани документи. Данните в тези документи имат фиксирани местоположения — датата винаги ще се намира на едно място, името на лицето ще заема фиксирано място и т.н.

Ето пример за това как изглежда структуриран документ:

Технологиите, които могат да ви помогнат с извличането на данни от тези документи, са доста ясни. Можете да поставите шаблон, който използва OCR и след това отива до конкретна координата в документа, за да извлече стойности за различни полета.

Важни съображения

Едно голямо предизвикателство със структурираните документи е, че трябва да създадете един шаблон за всеки от доставчиците. Ако обработвате сметки за комунални услуги, ще трябва да създадете шаблон за всеки различен вариант на сметката. Това не представлява голям проблем в началото, когато броят на вариантите е по-малък. Но тъй като вариациите се увеличават, продължаването на създаването на шаблони за всеки нов доставчик става повече от работа на пълен работен ден.

Вторият проблем е, че шаблоните се променят. Доставчиците могат да преработят оформлението на документа или да надстроят своя софтуер за създаване на документи и по невнимание да започнат да изпращат изцяло нови формати на документи, които нарушават шаблона. За съжаление разбирате, че шаблонът е променен едва когато извличането на вашите данни спре да работи. След това трябва да работите извънредно, за да коригирате шаблона и да го накарате да работи отново.

Полуструктурирани документи

Някои документи имат фиксиран набор от данни, но не и фиксиран формат за тези данни. В някои документи датата се появява в горния десен ъгъл, в друг вариант е в центъра на документа, а в трети ще я намерите в долния ляв ъгъл. Друго допълнително усложнение е, че едни и същи данни се квалифицират с различни имена. В един вариант едно поле може да се нарича „Номер на поръчка за покупка“, в друг — „Номер на поръчка“, а няколко други могат да го наричат „№ на поръчка“, „Номер на поръчка“. или „Номер на поръчката“. Тези варианти са безкрайни и поради тези две предизвикателства не можете да използвате базирано на шаблон решение за тези документи.

Извличането на данни от тези документи се нуждае от стабилни алгоритми за машинно обучение, които могат да се обучават сами. Ще ви трябват и някои възможности за обработка на естествен език, за да разберете контекста на всяко поле.

Ето как изглеждат полуструктурираните документи:

Както можете да видите, тези документи по същество имат една и съща информация, но тя е записана в напълно различен формат.

Важни съображения

Обработката на полуструктурирани документи изисква вероятностен подход, базиран на алгоритми за машинно обучение. Без това ще получите добри резултати за няколко вида документи и не толкова добри резултати за дълга опашка от вариации. Ще ви трябват и възможности за добавяне на нови точки от данни в движение.

Неструктурирани документи

Третата категория документи е запазена за документи, които нямат фиксирано оформление или фиксирани точки от данни. Това са свободно течащи многословни документи, подобни на тази публикация в блога, които могат да съдържат информация, представена навсякъде или във всякакъв формат.

Обработката на данни за тези видове документи изисква значително количество конфигурация и персонализиране, за да позволи на IDP платформата да се учи от вашите конкретни документи. Това ще включва обучение за машинно обучение, персонализирана линия за предварителна обработка, базирано на компютърно зрение разпознаване за визуални компоненти като диаграми, сложни таблици и графики.

Важни съображения

Обработката на неструктурирани документи изисква доста предварителна инвестиция. Би било разумно да изчислите ROI за тези внедрявания, преди да отидете твърде далеч. Имате нужда или от значителен обем документи, или от бизнес стойност за неструктурирани документи. Второ, тъй като това внедряване включва доста персонализиране, времето за пускане на пазара обикновено отнема повече време. Можете да отделите от 6 месеца до една година, за да внедрите този тип решение. Ключът към успеха е да разделите този проблем на няколко фази и да имате измерими критерии за успех за всяка фаза.

В обобщение

Повечето документи с висока стойност са или полуструктурирани, или неструктурирани. OCR и ръчните корекции обикновено осигуряват достатъчно добра възвръщаемост за проста, структурирана обработка на документи. По-неструктурираните данни обаче се нуждаят от много изчерпателни технологични възможности за обработка. Има редица доставчици и налични решения за структурирани документи, които вършат доста добра работа при извличане на данни. Но докато преминавате към полуструктурирани и неструктурирани документи, пейзажът на доставчиците се свива значително.

Усложненията на вариантите, които се нуждаят от извличане без шаблон, затрудняват работата на повечето IDP платформи. Повечето фирми остават с единствената възможност да ангажират системен интегратор (SI), който да внедри тези решения по поръчка. Те обикновено отнемат много време за изпълнение и често не успяват да осигурят точност и бързина. Изчерпателна платформа за IDP, базирана на машинно обучение и AI, като Infrrd, може да ви осигури предвидимостта и високата точност, необходими при извличането на данни за полуструктурирани и неструктурирани документи.

Първоначално публикувано на https://www.infrrd.ai.

Обяснени типове документи: структурирани, полуструктурирани и неструктурирани

Структурирани данни срещу неструктурирани данни

Структурирани документи

Полуструктурирани документи

Неструктурирани документи

В обобщение

Подобни въпроси