Inteligență artificială în procesarea vorbirii

Prof. dr. ing. Mircea Giurgiu
Team Leader

ing. Oscar Gal
Expert junior
Resurse și tehnologii pentru recunoașterea automată și sinteza din text a vorbirii (T1)
Obiectiv: Recunoașterea automată a vorbirii, sinteza din text a vorbirii si identificare automată a documentelor audio DeepFake
Provocări în cercetare / Noutate / Inovare
• Recunoașterea automată a vorbirii
• Sinteza din text a vorbirii
• Identificare automată a documentelor audio generate de inteligența artificială (audio DeepFake)
Rezultate cercetare:
• Corpus de date audio extins cu încă 50 de ore de vorbire pentru ASR
• Sistem de recunoaștere cu performante sporite
• Sistem de transcriere vocala si aplicație (demonstrator)
• Sistem de sinteza de voce de înalta calitate
• Sistem de sinteza de voce integrat in aplicație reala
• Modele pentru detectarea automata a Audio DeepFake
Inovare:
• Contribuții la extinderea seturilor de date cu semnal vocal in vederea antrenării sistemelor de recunoaștere a vorbirii (dimensiune estimata, mai mult de 100 de ore de vorbire adnotata cu text – sistemele actuale au fost antrenate cu maxim 60 de ore de vorbire)
• Dezvoltarea unor modele robuste, bazate pe arhitecturi de rețele neuronal profunde si care integrează împreuna atât partea de recunoastere acustica, precum si modelarea limbajului natural in limba romana
• Dezvoltarea unor modele pentru sinteza text vorbire de înalta calitate in limba romana
• Contribuții originale pentru detectarea automata a Audio DeepFake, independent de limba