Kurun Waktu Ketiga
Selama 50 tahunan, teknologi pensintesa ucapan mengalami banyak perubahan. Penemuan komputer digital telah memungkinkan untuk melakukan simulasi sebelum melakukan pengembangan perangkat keras. Sekitar tahun 1960-an, teknik analisis dan sintesa ucapan terbagi menjadi dua pendekatan. Pendekatan pertama disebut articulatory synthesis. Dalam pendekatan ini, mekanisme produksi ucapan dimodelkan secara fisiologi dengan cukup rinci. Pendekatan lainnya disebut terminal-analogue synthesis. Pada pendekatan kedua ini, ucapan dimodelkan dengan model apapun. Orientasinya lebih ditekankan pada usaha untuk memodelkan sinyal ucapan, bukan pada bagaimana cara membangkitkannya.
Sebelum adanya komputer digital, sebenarnya belum ada sistem seperti yang sekarang kita kenal sebagai sistem TTS. Pengembangan yang ada saat itu hanya terbatas pada bagian untuk membangkitkan atau mensintesa ucapannya saja. TTS yang melakukan konversi secara otomatis dari mulai teks berkembang setelah adanya komputer digital.
Pada tahun 1931, perusahaan Audichron membuat mesin pertama yang secara otomatis dapat mengucapkan waktu dan temperatur melalui saluran telpon. Sejak itu, banyak dikembangkan perangkat elektrik yang berhubungan dengan aplikasi ucapan, diantaranya adalah spektograf suara yang dapat menampilkan pola ucapan pada layar CRT.
Salah satu sistem komersial yang menerapkan teknologi komputer digital untuk aplikasi pemrosesan ucapan adalah IBM 7770 Audio Response Unit yang menggunakan drum berputar untuk menyimpan data-data ucapan. Pada awal tahun 1980-an berkembang beberapa sistem lainnya yang menggunakan komputer mainframe atau komputer mini. Dengan sistem ini, sejumlah institusi finansial saat itu dapat memberikan layanan sistem otomatis melalui pesawat telpon. Keadaan tersebut berubah semakin cepat setelah teknologi IC serta komputer mikro berkembang dengan pesat.
Berkembangnya komputer digital tidak hanya menyebabkan berkembangnya sistem TTS, tetapi juga melahirkan alternatif-alternatif baru untuk mengimplementasikan bagian pembangkit ucapannya. Pada era komputer digital, pembangkitan ucapan dilakukan menggunakan algoritma-algoritma pemrosesan sinyal digital yang diimplementasikan menggunakan perangkat lunak.
Bentuk pensintesa digital yang berkembang pada awalnya adalah pensintesa yang dikenal dengan istilah formant synthesizer, bekerja dengan cara mensimulasikan komponen-komponen frekuensi utama pembentuk ucapan yang disebut formant. Salah satu pensintesa ucapan jenis ini yang populer dan banyak digunakan pada berbagai aplikasi adalah cascade-parallel formant synthesizer yang pertama kali diusulkan oleh Dennis Klatt pada tahun 1990. Synthesizer tersebut merupakan pengembangan dari generasi sebelumnya yang juga dirancang oleh Klatt pada tahun 1980.
Pensintesa formant tidak dapat menghasilkan suara dengan tingkat kealamian yang tinggi, sehingga perkembangan TTS mengarah pada pencarian alternatif untuk mencari pendekatan yang dapat menghasilkan ucapan yang lebih alami. Seiring dengan kecepatan prosesor serta media penyimpanan komputer yang semakin tinggi, pendekatan tersebut mengarah pada sistem yang melakukan penggabungan segmen-segmen ucapan yang direkam sebelumnya. Berdasarkan berbagai pertimbangan teknis dan kualitas yang ingin dicapai, bentuk segmen yang dianggap paling optimum dan banyak digunakan adalah diphone atau dua fonem yang berurutan. Pendekatan dengan cara penyusunan ucapan dari diphone ini disebut diphone concatenation.
Tantangan teknis utama pada teknik diphone concatenation adalah mencari algoritma untuk menggabungkan diphone dengan diphone lainnya, serta algoritma untuk memanipulasi diphone, khususnya untuk mengubah durasi serta pitch diphone. Berbagai teknik yang berkembang untuk mendukung pensintesa jenis ini diantaranya adalah autoregressive (AR), Glottal AR, hybrid harmonic/stocastic, time domain PSOLA (TD-PSOLA), multiband resynthesis-PSOLA (MBR-PSOLA), serta Linear Prediction-PSOLA (LP-PSOLA) [Dut97].
Kini, speech synthesizer berkualitas tinggi telah tersedia untuk sejumlah bahasa, misalnya Bahasa Inggris, Perancis, Belanda, Jerman dan beberapa bahasa lainnya. Namun demikian, speech synthesizer untuk bahasa Indonesia sampai dengan saat ini belum tersedia. Salah satu perusahaan yang telah menghasilkan TTS berkualitas baik adalah perusahaan Lernout and Hauspie di Belgia. Perusahaan tersebut sudah memproduksi sistem TTS berkualitas tinggi untuk bahasa Inggris, Jerman, Perancis, Belanda, Spanyol dan Portugis.