Informatici udělají skenery chytřejší. Naučili je zpracovat obsah skenovaných faktur

Dokumenty naskenuje, označí a správně roztřídí podle zadaných kritérií. Na požádání pak poptávané informace a uložené doklady vyhledá – třeba tak, že přístroj jednoduše oslovíte, on vám odpoví a najde vše potřebné. Vítejte v kanceláři budoucnosti. Na extrakci informací ze skenovaných dokumentů, která by dnešní kopírky a tiskárny posunula k takzvaným „document management systems“, pracuje i tým informatiků z Masarykovy univerzity. Na ověření jedné z technik využili podporu Proof of Concept.

8. 11. 2018 Iveta Zieglová

Docent Aleš Horák vede na FI MU Katedru strojového učení a zpracování dat

„Už delší dobu spolupracujeme se společností Konica Minolta, která se zabývá výrobou velkých skenovacích zařízení a tiskáren. Chtějí svá skenovací zařízení udělat inteligentnější, aby dokument nejen převedla na obrázek, ale aby i rozpoznala jeho obsah,“ popisuje docent Aleš Horák projekt OCR miner, tedy dolování dat ze skenovaných dokumentů.

Pod jeho vedením se tým odborníků z Fakulty informatiky zaměřil v Proof of Concept projektu na konkrétní úkol: extrakci údajů ze skenovaných faktur. Právě zvolený typ dokumentu byl pro vědecký tým výzvou. „Faktury jsou na extrakci konkrétních dat relativně složité. Když se totiž podíváme třeba na naše testovací data, což je tisícovka faktur od zhruba 50 dodavatelů z celého světa, vidíme, jak je formát faktur extrémně různorodý. Samozřejmě obsahují 10 až 20 základních typů informací, ale ty jsou uspořádané v naprosto nečekaných kombinacích, tvarech a formátech. Některé faktury jsou téměř umělecké dílo,“ hodnotí s nadsázkou Horák.

Díky finanční podpoře v rámci projektu zvládli výzkumníci během roku a půl vytvořit prototyp nástroje, který má za úkol rozpoznat konkrétní oblasti dat jako je třeba částka či adresa. „V rámci Proof of Concept vznikla sada na sebe navazujících nástrojů, každý z nich je specializovaný na jednu jazykovou technologii. V prototypu dosahujeme asi 80% úspěšnosti extrakce informací z faktury. A po přechodu na lepší OCR základ by se mohla úspěšnost systému ještě zvýšit,“ chválí si Horák.

Prototyp je zatím navržen pro češtinu a angličtinu. Firma Konica Minolta, která na projektu spolupracovala, by v budoucnu ráda pokryla více světových jazyků. „Zaměřují se samozřejmě primárně na jiné jazyky, než je čeština, ale firma má v Brně poměrně velké výzkumné centrum, z tohoto pohledu pro ně nástroj v češtině dává smysl. A nejen to, naše mateřština totiž patří, co se týče získávání informací ze struktury textu, ke složitějším jazykům. Zjevné je to například v porovnání s angličtinou, která je mnohem schematičtější a proto se v ní lépe vyhledává,“ vysvětluje Horák.

Úspěšnost řešení z dílny brněnských vědců je přitom srovnatelná s návrhy, které vznikly v zahraničí. „Z literatury známe pokusy o podobný úkol. Obvykle dosahují úspěšnosti mezi 70 a 90 % v případě angličtiny. My jsme použili trochu jiný přístup, zejména v zapojení technik analýzy jazykového obsahu. Během relativně krátkého času jsme dosáhli výsledků, které jsou podle literatury mezi těmi nejlepšími,“ dodává Horák.

Bude na čem stavět

V projektu, který má udělat skenery a tiskárny „chytřejší“, chtějí vědci pokračovat. Úkolem je rozšiřování portfolia dokumentů, které bude nástroj schopen rozpoznávat. „Nyní budeme pracovat na extrakci informací ze smluv. Předpokládáme, že kostra nástroje, která vznikla v rámci PoC, bude aplikovatelná i na jiné typy dokumentů, takže bychom na ní chtěli stavět,“ říká Horák.

Zavedení do praxe je úkolem firmy, Horák si proto netroufá říct, kdy přesně se tak stane, mohlo by jít řádově o jednotky let. Kromě vylepšení zařízení typově podobných těm, která jsou už dnes na trhu, směřuje celá oblast techniky mnohem dál. „Už dnes jsou kopírovací stroje vybavené počítačem a tím pádem jsou schopny pracovat s daty mnohem komplexněji, než to dělá klasická kopírka nebo skener. Vize je přetvořit kopírku na tzv. document management system, který dokumenty zpracovává komplexně včetně dat, kategorizace či inteligentního vyhledávání. Začínáme pracovat i nad tématem dotazovacích systémů pro komunikaci člověk-stroj. I ty mohou být někdy v budoucnu součástí těchto zařízení. Místo přes formulářové rozhraní by mohl uživatel s přístrojem komunikovat napřímo,“ popisuje Horák.

Člověk versus stroj

Během posledních pěti let se vývoj v oblasti strojového učení a zpracování dat rozběhl závratnou rychlostí. Kdo je dnes přesnější, člověk, nebo stroj? „V mnoha oblastech je stroj přesnější. Například ve zpracování velkých objemů dat, kterého prostě lidé nejsou schopni. Před časem jsme taky viděli počítač, který porazil jednoho z nejlepších lidských hráčů ve hře go. Někdy je ale otázka, co slovo „přesnější“ vlastně znamená. Existuje třeba aplikace na rozpoznávání obsahu obrázků, která měla přesnost 99 %, lidská přesnost na testovací sadě byla 96 %. I když lidé v tomto případě za strojem na první pohled o tři procenta zaostávají, nelze to takto přímočaře interpretovat. Jak můžeme vědět, že má pravdu stroj, když se na obsahu těch několika procent obrázků lidé neshodnou?“ uzavírá Horák.