Több éves belső kutatás-fejlesztés után az ügyfeleink és partnereink számára is elérhetővé tesszük a BroadBit saját fejlesztésű AI (Mesterséges Intelligencia) eszközét az AutoMeta-t, mely folyamatosan tanulva – minimális emberi beavatkozással – képes strukturálatlan adatokból értékes adatokat előállítani.
Automated Document Metadata Extraction
Az AutoMeta AI felismeri az iratok nyelvét és az irattípusokat, majd a típusoknak megfelelően képes a típusra jellemző metaadatokat nagy pontossággal, automatikusan kinyerni. Legyen szó digitalizált számlákról, teljesítés-igazolásokról, vagy munkaügyi iratokról – meg tudjuk határozni az irathoz szorosan kapcsolódó adatokat, úgymint: Számlaszám, Teljesítés ideje, Partner, Végösszeg, Projekt, Születési év, stb.
Az AutoMeta alkalmazás létrehozásának elsődleges célja az volt, hogy dokumentumkezelő rendszerekhez (Alfresco, SharePoint, FileNet, etc.), vagy adatbázisokhoz (MS SQL Server, PostgreSQL, Oracle, stb.), illetve fájlrendszerhez (rekurzív mappatartalom feldolgozással) kapcsolódva az adatforrásokból fájlokat, nyersanyagot kérjen el, majd a fájl beltartalma alapján metaadatokat (kulcs-érték párok) hozzon létre. A feldolgozott dokumentum a konfigurált “endpoint”-okban definiáltaknak megfelelően kerül vissza a célként megadott tárhelyre, mely megegyezhet, vagy akár el is térhez a forrásrendszertől.
Az AutoMeta képes “Repository Crawler“-ként működni, ütemezett konfigurációja szerint csatlakozik a definiált DMS, vagy adatbázis szerverekhez, letölti a feldolgozandó dokumentumokat, majd az automatikus műveletek eredményével kiegészíti a dokumentumok metaadatait.
Egy AutoMeta szerver több DMS-hez, adatbázishoz, vagy fájl-tárolóhoz is kapcsolódhat, konfigurációtól függően végezhet adatkinyerést, illetve transzformációkat.
A transzformációs művelet során a rendszerek közötti adat-migráció is megtörténhet, azaz például egy fájlrendszeren elérhető fájlokat feldolgozás után egy DMS-be, CMIS Repository-ba (pl. Alfresco, SharePoint) tölti az AutoMeta a feldolgozás során automatikusan kinyert metaadatokkal együtt. Ennek klasszikus esete lehet egy megosztott mappastruktúrában vagy DVD-n tárolt archívum DMS-be töltése úgy, hogy a migrációs, illetve replikációs folyamat során a dokumentumok – beltartalom és metaadat – indexelése is megtörténik, ezáltal kereshetővé is válnak.
Az AutoMeta mögött egy sok-sok komponensből álló, gépi tanuláson alapuló szoftver (AI) van, mely egyrészt emberi tanításra szorul, másrészt a működése folyamán öntanuló módon fejleszti saját képességeit. Nyelvenként és dokumentumtípusonként is tanítható, de alkalmazhatók globális minták is – ezeket az integráció során a projektre, illetve az ügyfélnél előforduló esetekre optimalizáljuk.
Az AutoMeta az adatkinyerési műveletekhez használ tartalom-transzformációt (pl.: OCR, Binary to Text, Barcode, Computer Vision, Image to PDF, stb.), statikus template-eket és Machine Learning funkciókat (pl.: classification, struktúra és szín érzékelés, stb.) is – ezek kombinációjával éri el a maximális autonóm működést.
Az AutoMeta kiemelt tulajdonságai:
- On-Premise és/vagy Cloud módú működés – On-Premise esetén az érzékeny adatok nem hagyják el a szervezetet
- Skálázható, multiplatform technológia (JVM)
- Többnyelvű AI modul (európai és ázsiai nyelvű dokumentumokkal is megbirkózik)
- Process Monitoring Interface
- Többnyelvű klasszifikációs felület (az AI tanítására) – csoportmunka támogatással, többkörös ellenőrzéssel (pl.: “négy szem elv”, AI + humán)
- Az elő-klasszifikációt az AutoMeta AI végzi, valójában minden esetben legalább “ketten” látják az adatokat, hiszen a humán operátornak már egy javasolt értéket jelenítünk meg (ez viszont módszertantól függően tiltható és ellenőrizhető)
- Kép (JPEG, TIFF, …), Office (LibreOffice, MS Office fájlok) és PDF fájlok feldolgozása, konverziója
- Kétrétegű (kép + kereshető szöveg) PDF előállítása beépített OCR-rel
- Többnyelvű szövegfelismerés audio fájlokban (MP3, OGG, …), a rögzített beszélgetések szöveggé alakítása, majd a szöveg további feldolgozása
- PDF dokumentumok hitelesítése szervezeti szinten
- PDF elektronikus aláírás meglétének ellenőrzése
- Vonalkód, QR kód felismerés és előállítás (dokumentum képre)
- Machine Readable Zone (MRZ), TD1, TD2, TD3, MRV-A, MRV-B érték kinyerés (személyi igazolvány, útlevél, stb.)
- CMIS repository-k használata adatforrásként és célként
- Komplex fájlrendszer, illetve mappa-struktúra használata adatforrásként és célként
- Adatbáziskezelők (SQL) használata adatforrásként és célként
- Idő-triggerelt működés (ez esetben az AutoMeta szólítja meg a forrás és cél rendszereket az adatfeldolgozás során)
- Szerviz, illetve szolgáltatás alapú működés (az adatokat tároló rendszer SOAP, illetve REST interfészeket szólítja meg az AutoMeta-t)
- Kulcs-érték párok kinyerése strukturálatlan dokumentumokból (pl.: “documentId=ABCD-E/2019”, “teljesitesIdeje=2016.08.08”)
- fix mezők kinyerése (pl. SAP integrációhoz a szükséges XML tag-ekbe kerülnek a megfelelő adatok, pl.: “invoiceNumber=ABCD-E/2019”)
- dinamikus mezők kinyerése (az Amazon Textract-hoz hasonlóan a szövegben megtalálható kulcsnak tűnő mezők és az azokhoz tartozó értékek reprezentációja, pl.: “SZÁMLA SORSZÁMA=ABCD-E/2019”)
- Dokumentum nyelv és dokumentum típus meghatározása (pl.: “invoice-hu” > magyar nyelvű számla)
Az AutoMeta AI komponensei:
Az AutoMeta-technológia összetevőinek vázlata, illetve azok rétegei, továbbá az adatforrás (balra lent) és a műveletek eredményeként előálló strukturált adatok (jobbra lent).
Adatkinyerés minták
A következő képeken látható néhány, az AutoMeta által feldolgozott valódi üzleti dokumentumokból, illetve az azokból kinyert kulcs-érték párokból. A példákból látszik, hogy ugyanazokat az értékeket jelentősen eltérő struktúrákból kell meghatároznunk, nehezítve a szkennelés utáni OCR hibáival.
Szkennelt iratok, magyar nyelvű számlák, magyar XML tag-ekkel:
Alfresco ECM – AutoMeta integráció
Az Alfresco Content Service-ben létrehozott dokumentum-modell metaadataiban kerülnek letárolásra a dokumentumból kinyert értékek. A lenti képen megjelenő XML struktúrában látszik, hogy a kiemelt és metaadatban letárolt értékek (fix mezők) mellett az Amazon Textract-hoz hasonló kulcs-érték páros adatok (dinamikus mezők) is megjelennek (lásd: “egyéb”).
Az integrációban az Alfresco ECM mint szerver vesz részt, az AutoMeta CMIS protokollon keresztül csatlakozik hozzá. Az Alfresco repository-ban egy dedikált metaadattal (“AutoMeta:status=0”) megjelölésre kerülnek a feldolgozandó dokumentumok, melyeket CMIS query-vel kér el az AutoMeta. A feldolgozás több szálon történik, az AutoMeta műveletek végeztével a metaadatok és dokumentum binárisa is visszatöltésre kerül az Alfresco-ba, mint új dokumentum verzió.
A tesztek során Alfresco-val WebDAV protokollon összekötött szkennerből érkezik a dokumentum, melyet az AutoMeta OCR-ez (ellát kereshető szöveges réteggel) és kinyeri belőle a dokumentumtípusra jellemző és definiált metaadatokat. A folyamat végén a szkennelt PDF helyén egy indexelt, metaadatokra és beltartalomra is kereshető dokumentum kerül az Alfresco repository-ba.
~ ~ ~
Document-, Project-management, Alfresco ECM Development and Support, Software development, Software testing, Automotive software development, V2X, V2G, GeoNetworking
H-2092 Budakeszi, Knáb János utca 8.
Tel.: +36 20 225 3054, +36 20 465 6554
E-Mail: info @ broadbit . hu
WEB: broadbit.hu
Reg.Number: 13-09-213102
TAX ID: 13717445-2-13
EU TAX ID: HU13717445
EU PIC: 999671622
BroadBit Energy Technologies
Automotive software development, V2X, V2G, GeoNetworking
Slovakia, Parková 45, 82105 Bratislava
Tel.: +36 30 218 9659
E-Mail: info @ broadbit . com
WEB: broadbit.net
TAX ID: SK2024183271
EU PIC: 933003037