Salt la conținut

Prof. dr. ing. Mircea Giurgiu

Team Leader

ing. Oscar Gal

Expert junior

Resurse și tehnologii pentru recunoașterea automată și sinteza din text a vorbirii (T1)

Obiectiv: Recunoașterea automată a vorbirii, sinteza din text a vorbirii si identificare automată a documentelor audio DeepFake

Provocări în cercetare / Noutate / Inovare
• Recunoașterea automată a vorbirii
• Sinteza din text a vorbirii
• Identificare automată a documentelor audio generate de inteligența artificială (audio DeepFake) 

Rezultate cercetare:
• Corpus de date audio extins cu încă 50 de ore de vorbire pentru ASR
• Sistem de recunoaștere cu performante sporite
• Sistem de transcriere vocala si aplicație (demonstrator)
• Sistem de sinteza de voce de înalta calitate
• Sistem de sinteza de voce integrat in aplicație reala
• Modele pentru detectarea automata a Audio DeepFake

Inovare:
• Contribuții la extinderea seturilor de date cu semnal vocal in vederea antrenării sistemelor de recunoaștere a vorbirii (dimensiune estimata, mai mult de 100 de ore de vorbire adnotata cu text – sistemele actuale au fost antrenate cu maxim 60 de ore de vorbire)
• Dezvoltarea unor modele robuste, bazate pe arhitecturi de rețele neuronal profunde si care integrează împreuna atât partea de recunoastere acustica, precum si modelarea limbajului natural in limba romana
• Dezvoltarea unor modele pentru sinteza text vorbire de înalta calitate in limba romana
• Contribuții originale pentru detectarea automata a Audio DeepFake, independent de limba