NLP și Speech Processing: de la grafuri de cunoaștere la sinteză vocală și securitatea embedding-urilor

Advances in Natural Language and Speech Processing

Cercetările recente din cadrul Hub-ului Român de IA vizează eficientizarea sistemelor de recomandare, securitatea modelelor de limbaj și avansul tehnologiilor de sinteză vocală pentru limba română.

Sisteme de Recomandare bazate pe Knowledge Graphs (TRL 3)

Este propus un sistem de recomandare a rețetelor culinare, utilizând o arhitectură hibridă pentru a depăși limitările modelelor bazate exclusiv pe Transformer (cost ridicat, explicabilitate scăzută).

Retrieval-Augmented Generation (RAG + KG): LLM-ul interoghează graful de cunoștințe pentru fapte relevante, injectând tripletele sau subgrafele recuperate direct în prompt pentru a genera răspunsuri fundamentate (grounded).
Graph-Enhanced Training: Include embeddin-uri de graf sau triplete în etapa de fine-tuning pentru a permite modelului să învețe relațiile în mod explicit.
Obiectiv: Crearea unui model compact, eficient și interpretabil structural pentru recomandări de nutriție și reducerea risipei alimentare.

Inversarea Embedding-urilor (Embedding Inversion – TRL 3)

Această tehnică de Proof of Concept vizează reconstrucția textului original pornind de la reprezentările numerice (embeddings) ale modelelor de tip encoder.

Performanță: Tehnica de inversare depășește standardele actuale (SOTA) pe multiple seturi de date și modele de encodare.
Eficiență: Metoda de reconstrucție este optimizată la nivel de token, reducând costurile de generare fără a sacrifica acuratețea recuperării.
Aplicații Critice: Analiza securității (recuperarea propozițiilor din vectori), testarea vulnerabilităților bazelor de date vectoriale și interpretarea caracteristicilor lingvistice (semantice vs. sintactice) codificate în embedding-uri.

Progrese în Procesarea Semnalului Vocal (Speech Processing)

Focusul principal este dezvoltarea și securizarea tehnologiilor audio specifice contextului lingvistic românesc.

Romanian TTS: Dezvoltarea unui sistem avansat de sinteză Text-to-Speech (TTS) pentru limba română, deja integrat în două aplicații software distincte.
Deep Fake Detection: Implementarea detecției automate pentru conținutul audio sintetizat artificial.
Anonimizare și Emoție: Tehnologii pentru anonimizarea vorbitorilor de limbă română și recunoașterea automată a emoțiilor direct din datele vocale.