Lokálne jazykové modely v automatizácii účtovníctva: prípadová štúdia GastroPlay.sk

Ako sme v IOAS navrhli špecializované jazykové modely pre slovenský gastro segment. Tri modely vyladené na slovenský účtovný kontext (SK-Invoice-Extract, SK-Posting-Classifier, SK-Legal-RAG) dosahujú F1 0,961 pre extrakciu polí, 0,887 pre návrh kontácie a 0,924 retrieval F1 — pri 100 % on-premise inferencii.

Abstrakt

Cloudové veľké jazykové modely (LLM) priniesli za posledné dva roky zásadný posun v automatizácii dokumentových workflow-ov, no v regulovaných sektoroch ako účtovníctvo a daňová agenda narážajú na tri systémové bariéry: regulatórnu (GDPR, AI Act, daňové tajomstvo), ekonomickú (per-doklad cena pri vysokých objemoch) a kvalitatívnu (slabá presnosť na lokalizovaných dokumentoch malého trhu). V tomto článku predstavujeme prípadovú štúdiu z partnerstva IOAS s vývojom slovenského cloud-natívneho operačného systému pre gastronomický segment GastroPlay.sk, kde sme nasadili tri špecializované jazykové modely vyladené na slovenský účtovný kontext: SK-Invoice-Extract (extrakcia faktúr), SK-Posting-Classifier (predikcia podvojnej kontácie) a SK-Legal-RAG (právny vyhľadávací asistent). Na zostavenom golden datasete 4 200 anotovaných slovenských faktúr a 12 800 účtovných transakcií dosahujeme F1 presnosť 0,961 pre extrakciu polí, 0,887 pre návrh kontácie a 0,924 F1 retrieval pre právne dotazy v slovenských zákonoch — pri 100 % on-premise inferencii bez exfiltrácie dát do cloudu. Mediánová latencia OCR + extrakcie je 3,8 s, čo je 2,1× rýchlejšie ako baseline cez verejné cloud API.

1. Úvod

Slovenský trh malých a stredných podnikov (MSP) v gastronomickom segmente predstavuje približne 14 600 aktívnych prevádzok [1] s typickou skladbou: jedna prevádzka, 1 – 15 zamestnancov, ročný obrat pod 500 000 €. Tieto firmy spracujú týždenne 30 – 200 došlých faktúr, vystavia 5 – 80 odoslaných faktúr a podávajú 20+ daňových a štatistických výkazov ročne. Manuálna ručná práca v tomto cykle (skenovanie, zaúčtovanie, párovanie platieb, podanie DPDP/KV/SV) tvorí podľa našich pozorovaní u referenčných klientov 8 – 14 hodín administratívnej práce mesačne, ktorá je z pohľadu hodnoty pre podnikateľa stratová.

Cloudové LLM (GPT-4 class, Claude Sonnet, Gemini Pro) dosahujú pri „few-shot” extrakcii faktúr presnosti v rozmedzí 0,82 – 0,93 F1 [2], pri správnej promptovej inžinierii. V kontexte slovenského účtovníctva sme však narazili na štyri špecifické problémy:

Slovenská diakritika a morfológia — ohýbanie slovenských mien dodávateľov spôsobuje, že cloud LLM bez explicitnej normalizácie nedokážu spoľahlivo párovať „Foodservice Plus s.r.o.” na faktúre proti registrácii v ORSR.
Variabilita výstupných formátov — slovenské faktúry nemajú dominantnú šablónu (na rozdiel od nemeckého ZUGFeRD ekosystému), často sú generované rôznymi malými ERP nástrojmi (iKros, MRP, Money S3, vlastné Excel šablóny) so ~120 unikátnymi layout-mi v našej testovacej vzorke.
Účtovná kontácia — mapovanie textu položky faktúry na účet účtovej osnovy podľa Opatrenia MF SR č. 23054/2002-92 je úloha, ktorá vyžaduje doménovú znalosť mimo distribúcie všeobecných cloudových LLM.
Regulačné ohraničenia — daňové tajomstvo podľa § 11 zákona č. 563/2009 Z. z. a článok 9 GDPR pre niektoré PII vo výkazoch (rodné čísla zamestnancov v mzdovej agende) zakazujú alebo zásadne komplikujú presúvanie údajov do cloudových služieb tretích strán mimo EÚ jurisdikcie.

Tieto bariéry boli motiváciou pre návrh lokálne nasadených, doménovo špecializovaných modelov, ktoré sme v IOAS navrhli, natrénovali a integrovali do produktu GastroPlay.sk.

2. Súvisiaca práca

Trend k „vertikálne špecializovaným” malým jazykovým modelom (small language models, SLM) získal v r. 2024 – 2026 silný výskumný i komerčný rozmer. Microsoft Phi-3 (3,8B params) [3] a Mistral 7B [4] preukázali, že modely o radoch menšie ako frontier LLM môžu pri správnom doménovom fine-tuningu prekonať veľké generalistické modely v špecifických úlohách. V kontexte finančných dokumentov boli publikované práce FinBERT [5], FinGPT [6] a DocFin [7], no všetky boli trénované primárne na anglických korporátnych dokumentoch (10-K, 10-Q reporty SEC), ktoré majú s európskou MSP fakturáciou minimálny prienik.

Pre slovenský jazyk existujú predtrénované enkódery Slovak-BERT [8] a SlovakRoBERTa [9], no v okamihu nášho výskumu (Q3 2025) neexistoval verejne dostupný generatívny model špecializovaný na slovenský účtovný a daňový jazyk. Náš prístup preto vychádzal z otvorených multijazyčných základných modelov (Llama 3.1 8B Instruct [10], Mistral 7B v0.3 [4]) a aplikoval na ne parameter-efficient fine-tuning (PEFT) technikami LoRA [11] a QLoRA [12].

Pre dokumentovú extrakciu sme stavali na LayoutLMv3 [13] a Donut [14], pre retrieval-augmented generation (RAG) sme adaptovali multilingválny bge-m3 [15] enkóder.

3. Architektúra navrhnutého systému

Systém sa skladá zo štyroch hierarchických vrstiev (obr. 1) navrhnutých tak, aby každá ďalšia vrstva pracovala na čoraz štruktúrovanejších dátach a aby ju bolo možné horizontálne škálovať podľa záťaže:

                  ┌──────────────────────────────────────┐
   Mobile / Web → │  Vrstva 0: Predspracovanie obrazu    │
                  │  (deskew, denoise, perspektíva)       │
                  └────────────────┬─────────────────────┘
                                   ▼
                  ┌──────────────────────────────────────┐
                  │  Vrstva 1: OCR + layout              │
                  │  Tesseract 5 + LayoutLMv3 (lokálne)   │
                  └────────────────┬─────────────────────┘
                                   ▼
                  ┌──────────────────────────────────────┐
                  │  Vrstva 2: Extrakcia entít            │
                  │  SK-Invoice-Extract (Llama 3.1 8B    │
                  │  + LoRA, fine-tuned)                 │
                  └────────────────┬─────────────────────┘
                                   ▼
                  ┌──────────────────────────────────────┐
                  │  Vrstva 3: Klasifikácia a kontácia    │
                  │  SK-Posting-Classifier               │
                  │  (Mistral 7B + QLoRA)                │
                  └────────────────┬─────────────────────┘
                                   ▼
                  ┌──────────────────────────────────────┐
                  │  Vrstva 4: Right-hand asistent       │
                  │  SK-Legal-RAG (bge-m3 + Llama 3.1)    │
                  │  pre dotazy do § zákonov SR          │
                  └──────────────────────────────────────┘

Obr. 1. Štvorvrstvová architektúra. Vrstvy 1 – 4 bežia na infraštruktúre IOAS v EÚ regióne (Frankfurt) v Kubernetes clusteroch s NVIDIA L40S GPU. Žiadne klientske dáta nikdy neopúšťajú právnu jurisdikciu EÚ.

3.1 Vrstva 0 – Predspracovanie

Mobilná aplikácia GastroPlay zachytáva fotografiu faktúry typicky v podmienkach so šikmým osvetlením a perspektívou. Aplikujeme:

Edge detection cez Apple VisionKit (iOS) / Google ML Kit (Android), ktoré bežia úplne na zariadení.
Deskew a perspektívnu transformáciu cez OpenCV (server-side).
Adaptive thresholding (Sauvola binarizácia) pre PDF s nízkym kontrastom.

3.2 Vrstva 1 – OCR + layout

Pre OCR používame Tesseract 5.4 s slovenským tréningovým dátumom rozšíreným o ~3 200 anotovaných pozícií zo slovenských faktúr (čísla, IČO, sumy, IBAN). Geometrickú štruktúru (bounding boxy textu, tabuľkové hranice) získavame cez LayoutLMv3 fine-tuned na 1 800 anotovaných stránkach.

Hybridné OCR (Tesseract + LayoutLMv3) dosahuje na našom evaluačnom datasete 97,8 % character accuracy vs. 94,2 % pri samotnom Tesseracte na slovenských faktúrach so slabou tlačou.

3.3 Vrstva 2 – SK-Invoice-Extract

Hlavný extrakčný model. Vstup: textová reprezentácia faktúry s priestorovými značkami (<box x=120 y=300>Foodservice Plus s.r.o.</box>). Výstup: JSON podľa schémy zhodnej s európskou normou EN 16931 [16].

Architektúra:

Základný model: Llama 3.1 8B Instruct
Fine-tuning: LoRA s rank=32, alpha=64, target modules q_proj, k_proj, v_proj, o_proj
Trénovací dataset: 4 200 anotovaných slovenských faktúr (3 360 train / 420 validation / 420 test)
Trénovacia infraštruktúra: 4× NVIDIA H100 SXM, ZeRO-3, 12 hodín, batch_size=8
Loss: štandardný cross-entropy s váhovaním pre výstupné JSON tokeny

Tento článok je súčasťou plateného obsahu IOAS.

Bezpečná platba cez Stripe · prístup obnoviteľný cez e-mail, bez registrácie