Doxis4 Classification & Extraction Service: sztuczna inteligencja napędza klasyfikację nieustrukturyzowanych danych

Nawet 80% wiedzy firmy stanowią nieustrukturyzowane dane. Problem w tym, że dopiero ich wydobycie, sklasyfikowanie i udostępnienie w uporządkowanej formie pozwala wykorzystać je w procesach biznesowych. Usługa Classification & Extraction Service platformy Doxis4 pomaga przechwytywać i klasyfikować dokumenty na podstawie analizy treści i formy, udostępniając je jako ustrukturyzowane zbiory danych dla oprogramowania ECM i BPM.


Pakiet Doxis4 to kompletna platforma do zarządzania treścią w przedsiębiorstwie, łącząca funkcje zarządzania dokumentami, akt elektronicznych, archiwizacji elektronicznej, współpracy grupowej oraz zarządzania przepływami pracy i procesami biznesowymi w jednym, modułowym systemie dopasowanym do potrzeb i możliwości firmy.

Zasilane informacjami

Baza danych systemu Doxis4 zasilana jest różnego typu informacjami z korespondencji przychodzącej, dokumentów biznesowych, pism czy umów. Proces przyjęcia dokumentu do elektronicznego obiegu, jego klasyfikacja i przekierowanie do procesu biznesowego, bywa złożony i kosztowny. Wynika to z mnogości form i źródeł informacji, przy czym najbardziej kłopotliwa zdaje się być obsługa dokumentów papierowych. Najbardziej podstawowy scenariusz zakłada zeskanowanie dokumentu, ocenę jego treści oraz przekierowanie do obsłużenia w ramach właściwego procesu biznesowego. W wielu przypadkach informacje z dokumentu, np. dane z faktury, muszą być przepisywane ręcznie do systemu zarządzania treścią.

Częściowa lub pełna automatyzacja zadań związanych z porządkowaniem treści przynosi szereg wymiernych korzyści. Poza najbardziej widocznym zmniejszeniem ilości i złożoności prac wykonywanych przez człowieka, automatyzacja przyspiesza analizę treści i ich klasyfikację oraz ogranicza ilość błędów i pomyłek podczas ręcznego wprowadzania dokumentów do systemu.

Usługa Classification & Extraction Service automatyzuje procesy klasyfikacji dokumentów na podstawie analizy ich treści i formy, przechwytując nieuporządkowane informacje, które po przetworzeniu udostępniane są w formie ustrukturyzowanych danych modułom ECM i BPM systemu Doxis4.

Modele analizy treści

Analiza treści to proces wydobywania informacji z ustrukturyzowanych, częściowo ustrukturyzowanych lub nieustrukturyzowanych dokumentów, aby wykorzystać je w procesach biznesowych oraz przepływach pracy.

Usługa Classification & Extraction Service systemu Doxis4 wykorzystuje hybrydowy model klasyfikacji dokumentów, oparty na predefiniowanych regułach oraz wbudowanych mechanizmach sztucznej inteligencji, uczenia maszynowego i przetwarzania języka naturalnego (NLP).

W przypadku powtarzalnych, ustrukturyzowanych dokumentów całkiem nieźle sprawdza się klasyfikacja oparta o słowniki i predefiniowane reguły. Klasyfikacja przebiega tutaj szybko i bezbłędnie, ale statyczne reguły wymagają opracowania i ciągłego aktualizowania.

Klasyfikacja dokumentów częściowo ustrukturyzowanych i nieustrukturyzowanych na podstawie analizy ich treści i formy jest bardziej skomplikowana i wymaga sięgnięcia po bardziej złożone technologie informatyczne. W przypadku Doxis4 są to zaawansowane algorytmy wykorzystujące sieci neuronowe, a więc mechanizmy sztucznej inteligencji i uczenia maszynowego. Mowa tutaj o systemach uczących się, które potrzebują treningu na dużym zbiorze informacji, aby w pełni automatycznie dokonywać trafnej oceny treści dokumentów, porządkować zawarte w nich informacje, a później kierować do właściwego procesu biznesowego. Celem jest takie wytrenowanie systemu, aby klasyfikacja dokumentów na podstawie analizy treści odbywała się automatycznie, bez udziału człowieka.

Podejście to pozwala dokonać oceny treści znacznie szerzej aniżeli poprzez przeszukiwanie zawartych w dokumencie słów i wyrażeń. Wbudowana w system „sztuczna inteligencja” pozwala w pełni automatycznie ocenić kontekst informacji zawartych w dokumencie oraz sentyment, z jakim został on napisany. Możliwa jest więc automatyczna ocena, czy przykładowe zgłoszenie od klienta ma negatywny wydźwięk, czy też zawiera raczej jakiegoś rodzaju pochwałę.

Wykorzystanie usług kognitywnych w procesie klasyfikacji dokumentów ograniczone jest wyobraźnią projektantów systemu. Dzisiaj to co oferuje Doxis4 w zakresie analizy treści to jeszcze np. wykrywanie prób naruszenia bezpieczeństwa (dokumenty typu fraud), automatyczna identyfikacja osoby, do której kierowana jest korespondencja albo automatyczne nadawanie dokumentom priorytetów (ważności).

Analiza obrazu

Powyższy opis dotyczy przypadku, w którym informacje (treści) zostały wydobyte z dokumentów za pomocą usługi Doxis4 Fulltext Service, jeśli mowa o źródłach cyfrowych, albo procesów OCR w przypadku materiałów skanowanych.

Analiza tekstu nie musi być jedyną metodą klasyfikacji dokumentów. Inne podejście zakłada rozpoznawanie typu dokumentów na podstawie układu i jego charakterystycznych elementów np. linii podziałów, pól formularzy czy nagłówków.

Usługa Doxis4 Classification & Extraction Service ma również wbudowane funkcje klasyfikacji obrazów, realizowanych zanim jeszcze do gry wkroczy czasochłonny mechanizm OCR. Analiza obrazu, np. zeskanowanego dowodu osobistego, może być podstawą do sklasyfikowania danego dokumentu, bez potrzeby pozyskiwania i przetwarzania zawartych w nim informacji. Dowód osobisty, zawierający dane osobowe, może zostać zachowany w systemie w niezmienionej formie, opisany ogólnymi metadanymi i skierowany do właściwego procesu biznesowego. Bez obawy o naruszenie regulacji RODO.

Mechanizmy sztucznej inteligencji i uczenia maszynowego odgrywają znamienną rolę w analizie treści dokumentów, pozwalając dokonać ich klasyfikacji na podstawie zawartych w nich informacji, kontekstu i sentymentu, czyli tego, co jeszcze do niedawna było domeną człowieka. Stąd już tylko krok do pełnej automatyzacji zadań związanych z obsługą korespondencji i dokumentów biznesowych w firmie.