Modele Multimodale Neuro-Simbolice: Image Captioning și KBLaM în Domeniul Medical

Medical Image Captioning: Arhitecturi ImageHRM și ImageTRM

Cercetarea se concentrează pe dezvoltarea unor modele avansate pentru generarea de descrieri precise ale imaginilor medicale, utilizând structuri ierarhice și recursive.

ImageHRM (Hierarchical Reasoning Model)

Integrare: Conectează un codificator vizual (vision encoder) direct în procesul de raționament al modelului HRM.
Module de Sistem:
- Vision Module: Extrage trăsăturile imaginii.
- L-Module: Realizează calcule locale și raționament.
- M-Module: Integrează rezultatele și actualizează memoria latentă printr-o buclă repetitivă.
- H-Module: Generează decizia sau predicția de nivel înalt către capul de ieșire (Head).
Clustering Semantic: Include o buclă intermediară pentru a face tranziția între reprezentările de nivel înalt (HL) și cele medii-înalte (HML).
Backbones Testate: ResNet18, Swin Transformer și FuseLIP. Modulele vizuale pre-antrenate sunt menținute „înghețate” (frozen) pentru a păstra cunoștințele vizuale, în timp ce nucleul de raționament învață structurarea textului clinic.

ImageTRM (Tiny Recursive Model)

Arhitectură: Un Transformer cu 2 straturi care rulează recursiv de $N$ ori cu greutăți partajate.
Eficiență: Amprentă redusă a modelului, având doar aproximativ 7 milioane de parametri.
Stabilitate: Utilizează netezirea greutăților de tip EMA (Exponential Moving Average) pentru a menține stabilitatea recursiunii adânci în timpul antrenării.
Performanță SOTA: Obține cele mai bune rezultate comparativ cu variantele ImageHRM, atingând un scor CIDEr de 0.449 și ROUGE-L de 0.199 folosind un backbone Swin.

Knowledge Base Augmented Language Models (KBLaM) Transferabile

Este explorată portabilitatea modelelor de limbaj augmentate cu baze de cunoștințe între diferite domenii medicale și ontologii.

Metodologie și Observații

Antrenare: Modelul KBLaM este antrenat exclusiv pe setul de date DOID (BioML).
Inferență Cross-Domain: Modelul este aplicat fără reantrenare pe alte ontologii și arii medicale, precum NCIT, ORDO sau OMIM.
Transferabilitate: S-a observat că mecanismul de atenție antrenat pe o ontologie funcționează eficient pe ontologii diferite, ceea ce demonstrează că modelul învață structura atenției independent de setul de date.

Rezultate Inferență (Accuratețe)

Performanța a fost evaluată pe diverse ontologii cu dimensiuni diferite ale bazei de cunoștințe (KB size):