collAIgue – autonóm dokumentum feldolgozás

collAIgue – autonóm dokumentum feldolgozás

A collAIgue fejlesztése és testreszabása során számtalan lehetőséget találtunk a dokumentum-feldolgozási folyamatok automatizálására. A célunk az autonóm működés, azaz lehetőleg emberi beavatkozás nélkül legyen képes végigvinni a folyamatokat.

A feldolgozási folyamatok során azonosítjuk a dokumentumot (illetve E-mail-t), összefoglalót készítünk róla a meghatározott nyelven, felismerjük az érvényességét, hatályosságát és beállítjuk az ehhez tartozó dátumokat.

Az osztályozás során meghatározzuk a dokumentum üzleti típusát (pl. számla, munkaszerződés, megrendelés, teljesítés igazolás, egészségügyi laboreredmény, zárójelentés, személyi igazolvány, jármű forgalmi engedély, stb.) és a hozzá tartozó egyéb adatokat, úgymint a rajta szereplő cégeket, embereket, dátumokat, helyszíneket.

Példaként egy valós, magyar nyelvű közüzemi számlát dolgozunk fel autonóm módon, első lépésben egy angol nyelvű összefoglalót készítünk róla:

The document is a gas billing statement from MVM Next Energiakereskedelmi Zrt. to BroadBit Hungary Kft., dated July 11, 2023. It includes details of the gas consumption and related charges for the period between June 6, 2023, and July 5, 2023. The statement also provides information on payment methods, including a unique bank account number for electronic payments, and instructions for submitting gas leak reports.

Az összefoglaló követően jön az osztályozás (Dublin Core), azaz az alap metaadatok kinyerése:

{
  "type": "Utility Bill",
  "publisher": "MVM Next Energiakereskedelmi Zrt.",
  "contributor": "BroadBit Hungary Kft.",
  "identifier": "101611264771",
  "date": "2023-07-11",
  "title": "Gas Bill",
  "description": "This is a gas bill for BroadBit Hungary Kft. for the period between June 6, 2023 and July 5, 2023.",
  "coverage": "Budakeszi, Hungary",
  "subject": "Gas billing, payment information, gas consumption data",
  "author": "",
  "rights": ""
}

Az osztályozás eredményeképp megtudjuk a dokumentum típusát (type), mely alapján újabb automatikus műveleteket tudunk végrehajtani, például a közüzemi számlákból kinyerjük a rájuk jellemző adatokat:

{
  "category": "Gas",
  "type": "Natural Gas",
  "fromDate": "2023-06-06",
  "toDate": "2023-07-05",
  "totalCost": "2,115.00 Ft",
  "address": "Budakeszi, Knáb János utca 8.",
  "volumes": "178 MJ (5.02 m3)",
  "unitOfMeasurement": "MJ, m3",
  "unitPrice": "3,1010 Ft/MJ, 17,3240 Ft/MJ"
}

A fenti kinyert adatok alapján egyéb automatikus műveletek végezhetők, legyen az szortírozás a típus és a szereplők adatai alapján, átnevezés, illetve számlák esetén a számla adatok átadása egy másik szoftver számára:

{
  invoice: {
    date: '2023-07-05',
    dueDate: '2023-08-04',
    language: 'Hungarian',
    type: 'Electronic invoice',
    category: 'Utility bill'
  },
  references: { invoiceId: '101611264771', orderId: '' },
  parties: [
  {
    name: 'MVM Next Energiakereskedelmi Zrt.',
    address: '1081 Budapest, II. János Pál pápa tér 20.',
    VAT: '26713111-2-44',
    role: 'Supplier'
  },
  {
    name: 'BroadBit Hungary Kft.',
    address: '2092 Budakeszi, Knáb János utca 8.',
    VAT: '13717445-2-13',
    role: 'Customer'
  }
  ],
  items: [
  {
    name: 'Földgáz',
    quantity: 1,
    price: 2115,
    description: 'Natural gas consumption for the period: 2023-06-06 to 2023-07-05'
  }
  ],
  service: {
    completion: '2023-07-05',
    period: '2023-06-06 to 2023-07-05'
  },
  total: {
    net: 1665,
    gross: 2115,
    currency: 'HUF',
    payment: 'bank transfer'
  }
}

A fenti példában emberi beavatkozás nélkül dolgoztunk fel egy közüzemi számlát, majd állítottuk elő olyan JSON struktúrákat, melyek egyszerűen felhasználhatók adatbázis, vagy dokumentumkezelő rendszerek integrációja során. A collAIgue képes önmaga is használni adatbázisokat és dokumentum kezelő rendszereket, így a feldolgozás ezen a szinten is automatizálható. Fontos kiemelni, hogy a collAIgue tudása nem korlátozódik számlákra, csak azokon a legegyszerűbb bemutatni ezeket a műveleteket.

A fenti dokumentum a metaadataival együtt egy Alfresco dokumentumtárban:

Ugyanezt megtehetjük egyéb típusokkal is, ahogy az a következő ábrán látható:

Az egyes feldolgozási fázisok egy-egy “munkatárs” feladatait írják le, ezen munkatípusok száma folyamatosan nő, ahogy haladunk előre a fejlesztéssel, illetve készítünk új munkatípusokat az ügyfelek visszajelzései alapján is.

A jelenlegi tapasztalataink szerint az autonóm működéshez el kell érnünk a 95% körüli pontosságot – elég közel vagyunk hozzá, csak 90% fölötti értékekkel dolgozunk több száz dokumentumos tesztekben -, mellyel az emberi munka minőséget biztosan elérjük, de sokkal inkább megelőzzük azt. A leggyengébb collAIgue eszközök feldolgozási kapacitása napi 3000 dokumentum körül van jelenleg, így a sebesség és a pontosság együtt igencsak bíztató.