AutoMeta – Dokumentumfeldolgozási és transzformációs keretrendszer
- BroadBit
- ápr, 03, 2026
- Hungarian
- AutoMeta – Dokumentumfeldolgozási és transzformációs keretrendszer bejegyzéshez a hozzászólások lehetősége kikapcsolva
Az enterprise dokumentumkezelés egyik legidőigényesebb feladata és problémája a strukturálatlan tartalmakból történő metaadat-kinyerés. Egy szkennelt számla, egy beérkező e-mail csatolmánya vagy egy archivált szerződés PDF-je önmagában nem hordoz olyan indexelhető, kereshető információt, amit a dokumentumkezelő rendszer (DMS) hasznosítani tudna. Az AutoMeta erre a rétegre fókuszál: automatizált tartalom-transzformáció és metaadat-extrakció egy moduláris, JVM-alapú keretrendszerben.
A probléma és a megközelítés
A hagyományos dokumentumfeldolgozási láncokban az OCR szöveget állít elő, de a további lépések – nyelvfelismerés, típusbesorolás, mezőszintű adatkinyerés, célrendszerbe történő visszakerülés – általában egyedi scriptekből és manuális beavatkozásból állnak. Az AutoMeta ezt a folyamatot konfigurációalapú transzformációs láncokkal helyettesíti, ahol számtalan beépített lépés (transzformáció) kombinálható egymással: OCR, képminőség-javítás, vonalkód-felismerés, MRZ-olvasás, Machine Learning alapú klasszifikáció, LLM-integráció, JSON schema validáció, DOM manipuláció és mások.
A rendszer nem egy monolit alkalmazás, hanem réteges architektúrát követ: adatforrás-adapterek, központi feldolgozási motor (AutoMeta Core) és céladapterek. Ez lehetővé teszi, hogy bármilyen forrásból (CMIS repository, fájlrendszer, RDBMS, IMAP e-mail, WebDAV) bármilyen célba történjen migráció vagy helyben feldolgozás, metaadat-konverzióval.
Architektúra
Az AutoMeta három fő rétegből áll:
Forrásadapterek: CMIS Atom és Browser binding (1.1 specifikáció), Alfresco changelog figyelő, fájlrendszer XML-metaadattal, RDBMS kapcsolat, WebDAV, IMAP/Exchange Online e-mail adapter, valamint NTFS USN Journal támogatás valós idejű változásfigyeléshez.
AutoMeta Core: Az ütemezés (scheduler) és szálkezelés biztosítja a párhuzamos feldolgozást. Az orchestrator a konfigurációban definiált transzformációs láncot hajtja végre dokumentumonként. A FreeMarker alapú template engine dinamikus metaadat-struktúrák generálására szolgál, az auditor pedig minden műveletet naplóz audit-célból.
Céladapterek: CMIS-to-CMIS migráció ID-megőrzéssel, in-place feldolgozás (azonos repository-ban), fájlrendszer XML-kimentés, RDBMS beszúrás, WebDAV, Alfresco REST API specifikus műveletek, valamint Cégkapu adapter az állami tárhelyekhez.

Feldolgozási módok
A rendszer két alapvető üzemmódban működik:
- Repository Crawler: Az AutoMeta aktívan csatlakozik a konfigurált forrásrendszerekhez, ütemezett ciklusokban lekéri a feldolgozandó dokumentumokat (pl. dedikált metaadattal jelölt iratok CMIS query-vel), feldolgozza azokat, majd visszakerüli az eredményt.
- Szerviz/Szolgáltatás mód: A tárolórendszer SOAP vagy REST hívással szólítja meg az AutoMeta-t, amikor új dokumentum érkezik. Ez a modell valós idejű feldolgozáshoz alkalmas, például szkennerről WebDAV-on keresztül érkező dokumentumok azonnali OCR-ezéséhez és indexeléséhez.
Adatkinyerés: fix és dinamikus mezők
A rendszer két típusú metaadat-kinyerést támogat:
A fix mezők előre definiált kulcs-érték párok, amelyek ismert struktúrából kerülnek kinyerésre – például számlaszám, teljesítés dátuma, végösszeg. Ezeket SAP integrációhoz XML tag-ekbe, vagy Alfresco aspectekbe (DublinCore, Summarizable, Effectivity) lehet betárolni.
A dinamikus mezők az Amazon Textract megközelítéséhez hasonlóan a dokumentum szövegében szereplő kulcsszavakból és azok kontextusából állítanak elő kulcs-érték párokat. Ez akkor hasznos, amikor a dokumentumok struktúrája változó, de az ismétlődő mintázatok felismerhetők.
Integráció Alfresco-val
Az Alfresco integráció CMIS protokollon keresztül valósul meg. A feldolgozandó dokumentumokat egy dedikált metaadattal (AutoMeta:status=0) kell jelölni, majd a rendszer több szálon dolgozza fel őket. Az eredményként kapott metaadatok és a transzformált bináris tartalom (pl. OCR-rel ellátott két rétegű PDF) új verzióként kerülnek vissza a repository-ba. A folyamat végén a dokumentum beltartalomra és metaadatra is kereshetővé válik.
A rendszer képes Alfresco-Alfresco replikációra is, Disaster Recovery site-ok közötti szinkronizálásra, valamint más DMS-ekből (SharePoint, FileNet, Nextcloud) történő időzített migrációra.
Tanítás és klasszifikáció
Az ML alapú klasszifikációs modul nyelvenként és dokumentumtípusonként tanítható. A tanítási felület csoportmunkát támogat többkörös ellenőrzéssel („négy szem elv”). Az AI elő-klasszifikációt végez, az emberi operátor pedig a javasolt értékeket ellenőrzi és szükség esetén korrigálja – ez az iteráció javítja a modell pontosságát. Globális minták is alkalmazhatók, amelyeket az integráció során az ügyfél dokumentumaihoz optimalizálnak.
Technikai megfontolások
Az AutoMeta egy JVM-ben fut, így platform-független és skálázható. Az on-premise működés garantálja, hogy az érzékeny adatok ne hagyják el a szervezet hálózatát, de cloud üzemeltetés is lehetséges. A konfiguráció XML alapú, ami szerkeszthető és verziózható, ugyanakkor a tanulási folyamat során a modellparaméterek finomhangolása komoly szakmai ismeretet igényel.
A rendszer egyértelmű erőssége a transzformációs láncok rugalmassága: egy feldolgozási pipeline tartalmazhat előfeldolgozást (képkorrekció, forgatás), OCR-t, ML klasszifikációt, LLM alapú szövegelemzést, JSON validációt és több célszerverre történő kimenetet – mindezt egyetlen konfigurációban.
Összefoglalva az AutoMeta egy dokumentumfeldolgozási middleware, amely a strukturálatlan tartalmak és a vállalati DMS/ERP rendszerek közötti réteget tölti ki. Nem helyettesíti a dokumentumkezelő rendszert, hanem annak feldolgozási képességeit bővíti automatizált metaadat-kinyeréssel, formátumkonverzióval és tárolók közötti migrációval. A collAIgue appliance szintén az AutoMeta komponenseire épül, annak keretrendszerét használva kommunikációra és auditálásra.

BroadBit Hungary
H-2092 Budakeszi, Knáb János utca 8.
Tel.: +36 20 225 3054, +36 20 465 6554
E-Mail: info @ broadbit . hu
WEB: broadbit.hu
Reg.Number: 13-09-213102
TAX ID: 13717445-2-13
EU TAX ID: HU13717445
EU PIC: 999671622