Penelitian di bidang pensintesa ucapan mengalami perjalanan yang sangat panjang dan telah dimulai sejak lama. Salah satu catatan literatur awal yang berhubungan dengan sintesa ucapan adalah pernyataan seorang ahli matematika dan engineer terkenal yang bernama Leonhard Euler pada tahun 1761. Euler menyatakan “It would be a considerable invention indeed, that of a machine able to mimic speech, with its sounds and articulations. I think it is not imposible”.
Berdasarkan hasil studi literatur dari berbagai sumber bacaan, perkembangan teknologi pensintesa ucapan dapat dibagi menjadi tiga kurun waktu. Kurun waktu pertama adalah sebelum 1930. Pada masa ini penelitian-penelitian lebih banyak ditujukan untuk memahami karakteristik sinyal ucapan serta pengembangan pensintesa ucapan berbasis mekanik atau elektromekanik. Kurun waktu kedua dimulai sejak tahun 1930-an sampai dengan ditemukannya komputer digital. Masa ini ditandai dengan pengembangan berbagai alat pensintesa ucapan menggunakan teknologi elektronik analog. Kurun waktu ketiga dimulai sejak ditemukannya komputer digital hingga sekarang. Pada masa ini, sintesa ucapan dilakukan menggunakan pendekatan-pendekatan pemrosesan sinyal digital.
Kurun Waktu Pertama
Penelitian tentang ucapan dimulai dengan penelitian-penelitian untuk melakukan pemahaman tentang sinyal ucapan. Pada tahun 1779, Imperial Academy of St. Petersburg menyelenggarakan suatu kompetisi dengan tujuan untuk mengetahui hal-hal berikut [Pel93].
1. “What is the nature and character of the sounds of the vowels a, e, i, o, u that make them different from one another?”
2. “Can an instrument be constructed like the vox humana pipes of an organ, which shall accurate express the sounds of the vowels?”
Seorang peneliti dari Rusia yang bernama Christian Gottlieb Kratzenstein memenangkan kompetisi tersebut dengan membuat satu set resonator akustik yang mensimulasikan mulut manusia. Resonator Kratzenstein terdiri dari 5 bentuk tabung, masing-masing untuk mensimulasikan satu bunyi vokal.

Gambar 2.1. Resonator Kratzenstein [Pel92]
Robert Willis, pada tahun 1829 melakukan penelitian yang berhasil memperlihatkan bahwa sintesa ucapan yang dihasilkan oleh Kratzenstein dapat pula dicapai dengan hasil yang sama menggunakan tabung tunggal yang dapat diatur panjangnya.
Selama dua dekade, antara tahun 1769 sampai dengan 1790, Wolfgang Ritter von Kempelen telah menghasilkan speaking machine yang lengkap. Pada prakteknya, Wolfgang telah membuat 3 model yang berbeda, semuanya dioperasikan dengan tangan. Penemuannya dipublikasikan dalam bentuk buku pada tahun 1791.
Wolfgang von Kempelen berpendapat bahwa untuk membuat mesin yang dapat berbicara, pertama-tama harus dapat menghasilkan suara vokal. Wolfgang mulai dengan mencari sumber bunyi yang sesuai, yaitu suatu substitusi mekanik dari suara vokal. Dia mencoba menggunakan reed bergetar yang biasa digunakan dalam instrumen musik, walaupun hasilnya kurang memuaskan. Suara dari reed disalurkan melalui suatu alat berbentuk bel yang dilengkapi baffle pada mulut yang dapat digerakan untuk menghasilkan bunyi vokal yang berbeda. Tidak puas dengan hasil percobaannya yang pertama, von Kempelen menggunakan tangannya untuk menggantikan baffle. Meskipun hasilnya menjadi lebih baik, tetapi suara yang dihasilkan masih belum memuaskan.

Gambar 2.2. Model Kedua Pensintesa Ucapan
Buatan Wolfgang von Kempelen [Pel92]
Model yang kedua dirancang untuk memenuhi kebutuhan akan perlunya beberapa resonansi pada beberapa frekuensi yang berbeda untuk mencapai berbagai suara berlainan yang diinginkan. Versi ini bersifat modular, berupa tiga belas buah resonator yang masing-masing dilengkapi dengan reed dan bersifat dapat dibongkar pasang, sehingga dapat saling dipertukarkan. Gambar 2.2 memperlihatkan model tersebut.
Dengan mesin tersebut, von Kempelen mengklaim bahwa dia telah mampu menghasilkan suara vokal a, o dan u serta suara p, m dan l yang dapat diterima. Secara monotonik, mesin buatannya dapat mengucapkan suara seperti “mama” dan “papa”, tetapi masih menghadapi dua masalah utama. Pertama, suara vokal yang dihasilkan mengandung bunyi yang sifatnya eksplosif yang mirip bunyi “k”. Masalah lain yang dihadapi adalah transisi antara dua bunyi yang berdekatan yang tidak smooth seperti suara alami. Satu bunyi dengan bunyi berikutnya masih terasa sebagai dua bunyi yang terpisah. Untuk mengatasi masalah tersebut, dia menambahkan kulit halus pada reed, juga menggunakan reed tunggal sebagai pengganti dari sejumlah reed yang sebelumnya digunakan pada setiap resonator.
Mesin ketiga buatan von Kempelen secara fisik sangat berbeda dari mesin-mesin sebelumnya (lihat Gambar 2.3). Paru-paru disimulasikan dengan pompa yang digerakan dengan bahu yang secara kontinyu dapat menghembuskan udara. Vokal dapat dihasilkan dengan cara menutup “nostrils” mesin tersebut dengan tangan kanan sambil menghembuskan udara dari simulator paru-paru. Sementara itu, tangan kiri harus mengatur resonansi melalui alat berbentuk bel. Hanya orang yang terlatih memainkannya yang dapat menghasilkan bunyi-bunyi yang diharapkan. Suara seperti F, H, V, W dan beberapa lainnya adalah suara-suara yang juga dapat dihasilkan dengan mesin tersebut. Wolfgang mengklaim bahwa mesin ketiga buatannya dapat menghasilkan semua suara vokal serta sembilan belas konsonan. Meskipun mesin tersebut memiliki kapasitas menghasilkan udara sekitar enam kali lebih besar dari kapasitas paru-paru manusia, tetapi mesin ini hanya mampu mengucapkan kalimat yang pendek sebelum kehabisan udara. Pada tahun 1791 von Kempelen mempublikasikan hasil penelitiannya dalam bahasa Jerman dan Perancis dengan judul “Mechanismus der menschlichen Sprache nebst der Berschreibung seimer sprechenden Maschine”.
Di Perancis, pada waktu yang hampir bersamaan dengan von Kempelen, Abbe’ Mical mengembangkan mesin lain yang dikenal sebagai “two talking head”. Mesin ini terdiri dari dua silinder yang mirip dengan silinder yang biasa kita lihat pada instrumen musik. Satu silinder disediakan untuk memainkan sejumlah ucapan tertentu dengan prosodinya. Silinder lainnya digunakan untuk menghasilkan semua bunyi dalam bahasa Perancis. Tidak diketahui dengan pasti otentikasi mesin buatannya tersebut.

Gambar 2.3. Model Ketiga Pensintesa Ucapan
Buatan Wolfgang von Kempelen [Pel92]
Hermann Helmholtz, seorang perintis peneliti akustik, pada pertengahan abad ke-19 membuat perangkat elektro-mekanik yang terdiri dari sejumlah garpu yang dapat ditala, kumparan elektrik, dan sejumlah resonator yang dapat mensintesa suara komposit yang sangat mirip suara vokal manusia. Perangkat ini mungkin tidak memperlihatkan hubungan langsung dengan berbagai penemuan alat-alat lainnya yang berhubungan dengan aplikasi suara, tetapi keberadaan mesin tersebut memberikan ilham bagi Alexander Graham Bell yang menghasilkan beberapa penemuan di bidang aplikasi mesin yang berhubungan dengan suara manusia. Pada saat yang bersamaan juga, Hermmann Helmholtz telah melakukan berbagai penelitian yang memberikan pemahaman yang lebih mendalam tentang akustik.
Peranan Sir Charles Wheatstone yang lebih dikenal dengan “Jembatan Wheatstone”-nya tidak dapat diabaikan dalam perkembangan alat pensintesa ucapan manusia. Wheatstone tumbuh besar dalam keluarga yang melakukan bisnis perangkat musik di London. Tahun 1821, pada usia sembilan belas tahun ia mendemonstrasikan alat ciptaannya yang dapat menggetarkan batang logam yang dieksitasi oleh suatu sumber yang vibrasinya dirambatkan melalui konduktor yang padat. Pada tahun 1835, Wheatstone mendemonstrasikan ciptaannya kepada Dublin Association.

Gambar 2.4. Versi Wheatstone dari Model Ketiga Pensintesa Ucapan
Buatan Wolfgang von Kempelen [Pel92]
Alexander Graham Bell yang lahir di Edinburg pada tahun 1846 dikenal sebagai penemu telpon. Berdasarkan buku yang ditulis oleh Kempelen, Bell beserta dua saudaranya (Melly dan Ted) pernah melakukan pengembangan mesin yang dapat menirukan ucapan-ucapan manusia. Pengembangan tersebut dilakukan di Edinburg sekitar tahun 1863. Pada usia 19 tahun, Bell mencoba mengulangi penelitian akustik Helmholtz. Bell mengira bahwa garpu tala dapat mentransmisikan bunyi vokal secara elektrik. Untuk memperbaiki kesalahan dugaan tersebut, akhirnya dia menemukan suatu keyakinan bahwa suara apapun dapat ditransmisikan secara elektrik. Pada akhirnya, Bell berhasil menemukan telpon.
Pada awal tahun 1990-an, J. L. Flanagan melaporkan hasil kerjanya yang merupakan kelanjutan dari pemikiran Helmholtz dan menguji berbagai alat yang dapat melakukan sintesa suara vokal. Penelitian ini meliputi penggunaan pipa organ, multiple sirens, garpu vibrasi yang dapat ditala, serta ide R. R. Riesz yang pada tahun 1937 mengusulkan alat bicara mekanik yang dapat dioperasikan dengan jari-jari tangan.