Echipe-Inteligență artificială în procesarea vorbirii – HUB Român de Inteligență Artificială

Inteligență artificială în procesarea vorbirii

Prof. dr. ing. Mircea Giurgiu

Team Leader

ing. Oscar Gal

Expert junior

Resurse și tehnologii pentru recunoașterea automată și sinteza din text a vorbirii (T1)

Obiectiv: Recunoașterea automată a vorbirii, sinteza din text a vorbirii si identificare automată a documentelor audio DeepFake

Provocări în cercetare / Noutate / Inovare
• Recunoașterea automată a vorbirii
• Sinteza din text a vorbirii
• Identificare automată a documentelor audio generate de inteligența artificială (audio DeepFake)

Rezultate cercetare:
• Corpus de date audio extins cu încă 50 de ore de vorbire pentru ASR
• Sistem de recunoaștere cu performante sporite
• Sistem de transcriere vocala si aplicație (demonstrator)
• Sistem de sinteza de voce de înalta calitate
• Sistem de sinteza de voce integrat in aplicație reala
• Modele pentru detectarea automata a Audio DeepFake

Inovare:
• Contribuții la extinderea seturilor de date cu semnal vocal in vederea antrenării sistemelor de recunoaștere a vorbirii (dimensiune estimata, mai mult de 100 de ore de vorbire adnotata cu text – sistemele actuale au fost antrenate cu maxim 60 de ore de vorbire)
• Dezvoltarea unor modele robuste, bazate pe arhitecturi de rețele neuronal profunde si care integrează împreuna atât partea de recunoastere acustica, precum si modelarea limbajului natural in limba romana
• Dezvoltarea unor modele pentru sinteza text vorbire de înalta calitate in limba romana
• Contribuții originale pentru detectarea automata a Audio DeepFake, independent de limba