Pembentukan ucapan pada pensintesa ucapan menggunakan metoda diphone concatenation pada prinsipnya dilakukan dengan cara menyusun sejumlah diphone yang bersesuaian sehingga diperoleh ucapan yang diinginkan. Sebagai contoh, pada gambar diperlihatkan pembentukan kata atau ucapan “komputer” yang disusun dari diphone-diphone /_k/, /ko/, /om/ dan seterusnya.
Gambar. Pembentukan Ucapan “komputer” dari Diphone-Diphone nya
Supaya pensitesa ucapan dapat mengucapkan semua kemungkinan kata atau kalimat yang ada dalam suatu bahasa, sehingga sistem tersebut harus didukung oleh diphone database yang terdiri dari semua kombinasi diphone yang ada dalam bahasa tersebut.
Diphone concatenation engine atau unit pemroses diphone akan menerima masukan berupa daftar fonem yang ingin diucapkan, masing-masing disertai oleh durasi pengucapannya, serta pitch atau frekuensinya. Berdasarkan daftar fonem yang diterima, unit ini akan menentukan susunan diphone yang sesuai. Selanjutnya, unit ini akan melakukan smoothing sambungan antar diphone, melakukan manipulasi durasi pengucapan serta manipulasi pitch (lihat Gambar di bawah). Pada akhirnya, diphone concatenation engine akan menghasilkan sinyal ucapan yang sesuai.

Gambar. Pembentukan Ucapan “komputer” dari Diphone-Diphone nya
Sejumlah teknik untuk pemrosesan diphone telah dikembangkan oleh berbagai pihak, diantaranya adalah autoregressive (AR), Glottal AR, hybrid harmonic/stocastic, time domain PSOLA (TD-PSOLA), multiband resynthesis-PSOLA (MBR-PSOLA), serta Linear Prediction-PSOLA (LP-PSOLA) [Dut97].
Penulis:
Arry Akhmad Arman
