Ada dua parameter penting yang sering dijadikan tolok untuk menilai kualitas ucapan yang dihasilkan oleh suatu sistem TTS, yaitu intelligibility dan naturalness. Hal tersebut diantaranya dinyatakan oleh Pelton [Pel93], Dutoit [Dut97], serta Deller, Proakis, dan Hansen [Del93]. Intelligibility menyatakan tingkat kemudahan untuk memahami atau menginterpretasikan kata atau kalimat yang diucapkan. Suatu TTS yang baik harus dapat menghasilkan ucapan yang mudah diinterpretasikan. Naturalness menyatakan tingkat kealamian dari bunyi ucapan yang dihasilkan. Sebagian TTS hanya dapat menghasilkan ucapan yang masih terdengar sebagai suara buatan, tidak seperti ucapan manusia yang sesungguhnya.
Ucapan yang mudah diinterpretasikan belum tentu bersifat natural atau alami. Sebagai contoh, TTS yang menggunakan teknologi formant synthesizer dapat menghasilkan ucapan dengan intelligibility yang tinggi, tetapi tidak dapat mencapai naturalness yang tinggi. Sebaliknya, TTS yang mampu menghasilkan ucapan yang alami pada umumnya memiliki tingkat intelligibility yang tinggi.