Submission Deadline Extended to April 7, 2008.


The Second International MALINDO Workshop (MALINDO2008)
12-13 June 2008
Multimedia University (MMU), Cyberjaya, Selangor, Malaysia



A considerable amount of research has been done on the processing of
Indonesian and Malaysian languages offering a variety of Computational
Linguistics (CL) and Natural Language Processing (NLP) resources
(dictionaries, thesauri, monolingual/parallel corpora, etc.), tools
(morphological analysers/generators, stemmers, spelling checkers,
syntactic parsers, etc.) and applications (machine translation,
information extraction, information retrieval systems,etc.). All these
valuable language resources, tools, and services are most of the time
ignored by the public and often not known by the researchers and students
working on these languages. This second MALINDO Workshop aims to bring
together researchers and practitioners, representing different
perspectives, to share and to exchange their ideas on the processing
of Indonesian and Malaysian languages. Thus, the organisers of the
workshop wants to highlight the effort and promising works done on the
processing of Indonesian and Malaysian languages in order to attract
more students to the CL and NLP fields and also to let all the NLP
communities in this World to be aware of their existence.

Prospective authors are invited to submit unpublished papers on any
topic that is of interest to the processing of Malaysian and
Indonesian languages and its broad applications, for presentation at
the workshop and publication in the proceedings.

The workshop will be of interest to anyone working on the processing
– computational and theoretical point of view – of Indonesian and
Malaysian languages.

The MALINDO Workshop is organised by the Universiti Sains Malaysia
(USM, Penang, Malaysia), Universitas Indonesia (UI, Jakarta,
Indonesia), and National University of Singapore (NUS, Singapore).
The workshop is hosted by the Multimedia University (MMU, Cyberjaya,
Selangor, Malaysia).


The topics of the papers are requested to be in all areas related to
the processing – computational and theoretical point of view – of
Malaysian and Indonesian languages.

* Language resources development, acquisition, annotation,
and representation: dictionaries, thesauri, terminology, lexicons,
written and spoken corpora, grammars, ontology

* CL and NLP tools and techniques: spelling/grammatical/style checkers,
morphological analyser, stemmer, lemmatiser, part of speech tagger,
chunker, syntactic parser, word sense disambiguator, discourse
processing, text and speech alignment, text and speech segmentation,
term extraction and recognition, named entity extraction,

* CL and NLP applications: machine translation and translation aids,
information retrieval, information extraction, text summarisation,
term extraction, natural language generation, question translation
aids, information retrieval, information extraction, text
summarization, term extraction, natural language generation, question
answering, document categorization, language identification, speech
recognition, speech synthesis, character recognition, e-learning,


Paper submission due:              7 April, 2008
Notification of acceptance:        5 May, 2008
Final version due for Proceedings: 19 May, 2008
Registration fee due:              30 May, 2008
Workshop dates:                    12-13 June, 2008


– Upload your submission in PDF or MSWord format at

– Submission should be at most 8000 words. We suggest to authors
to use IEEE Computer Society Proceedings Manuscript Formatting




Honorary Workshop Chair:
Zaharin Yusoff, Multimedia University

Workshop Chair:
Tang Enya Kong, Universiti Sains Malaysia

Programme Co-chairs:
Mirna Adriani, Universitas Indonesia
Stephane Bressan, National University of Singapore

Programme Committee:
Adi Budiwiyanto, Pusat Bahasa, Indonesia
Alvin Yeo, University Malaysia Sarawak, Malaysia
Arry Akhmad Arman, Institut Teknologi Bandung, Indonesia
Asanee Kawtrakul, Kasetsart University, Thailand
Bali Ranaivo-Malançon, Universiti Sains Malaysia, Malaysia
Cheah Yu-N, Universiti Sains Malaysia, Malaysia
David Gil, Max Planck Institute, Germany
Didier Schwab, University Mendès-France, Grenoble, France
Frederic Andres, National Institute of Informatics, Japan
Gilles Serasset, University Joseph-Fourier, France
Hammam Riza, Badan Pengkajian dan Penerapan Teknologi, Indonesia
Hisar M. Manurung, Universitas Indonesia, Indonesia
Kan Min Yen, National University of Singapore, Singapore
Mahani Aljunied, Institute for Infocomm Research, Singapore
Mathieu Lafourcade, University of Montpellier, France
Narayan Kulathuramaiyer, Universiti Malaysia Sarawak, Malaysia
Normaziah Abdul Aziz, International Islamic University Malaysia, Malaysia
Ng Hwee Tou, National University of Singapore, Singapore
Rila Mandala, Institut Teknologi Bandung, Indonesia
Tang Enya Kong, Univeristi Sains Malaysia, Malaysia
Yves Lepage, University of Caen, France
Zainal A. Hasibuan, Universitas Indonesia, Indonesia

Local Organisation Chair:
Bali Ranaivo-Malançon, Universiti Sains Malaysia

Local Organisers:
Norliza Hani Md. Ghazali, Universiti Sains Malaysia
Nour Azimah Zulkapli, Universiti Sains Malaysia
Sabrina Tiun Abdullah, Universiti Sains Malaysia
Siti Khaotijah Mohammad, Universiti Sains Malaysia
Rohana Omar, Universiti Sains Malaysia
Tan Ewe Hoe, Universiti Sains Malaysia

Dennis Wong Chin Phang, Universiti Sains Malaysia
Jasy Liew Suet Yan, Universiti Sains Malaysia


Send your questions and queries to the organisers at


Pertarungan software aplikasi Translator di Indonesia tampaknya semakin ketat. Baru-baru ini Rekso (yang merupakan bentuk lain dari Transtool) telah me-release versi terbarunya (versi 3.0). Pada versi terbaru ini Rekso meng-claim dapat menerjemahkan dokumen Microsoft Word (fitur ini sudah dimiliki oleh Translator lainnya) dan mempunyai database yang kuat untuk bidang-bidang khusus.

Hasil pengujian translasi menggunakan Rekso versi terbaru ini dapat dilihat sebagai berikut:

Sumber dokumen:



Internet, computer-based global information system. The Internet is composed of many interconnected computer networks. Each network may link tens, hundreds, or even thousands of computers, enabling them to share information with one another and to share computational resources such as powerful supercomputers and databases of information. The Internet has made it possible for people all over the world to communicate with one another effectively and inexpensively. Unlike traditional broadcasting media, such as radio and television, the Internet does not have a centralized distribution system. Instead, an individual who has Internet access can communicate directly with anyone else on the Internet, make information available to others, find information provided by others, or sell products with a minimum overhead cost.

Hasil terjemahan dengan Rekso Versi 3.0



Internet, sistem informasi berbasis-komputer global. Internet terdiri atas banyak orang jaringan komputer saling hubung. Masing-masing jaringan boleh menghubungkan sepuluh, ratusan, atau bahkan ribuan komputer-komputer, buka peluang mereka untuk berbagi informasi dengan satu sama lain dan untuk berbagi computational sumber daya seperti superkomputer-superkomputer dan database tangguh informasi. Internet telah membuat nya mungkin untuk seluruh penjuru dunia orang-orang untuk berkomunikasi dengan satu sama lain secara efektif dan dengan murah. Tidak seperti media penyiaran tradisional, seperti radio dan televisi, Internet tidak mempunyai suatu sistim distribusi yang dipusatkan. Sebagai gantinya, perorangan yang mempunyai Internet mengakses dapat komunikasi;kan secara langsung dengan siapapun selain itu di Internet, buat informasi yang tersedia bagi yang lain, temukan informasi disediakan oleh yang lain, atau menjual produk-produk dengan minimum biaya umum.

Sebagai pembanding, ini hasil terjemahan dengan menggunakan Smart Translator versi 1.0



Internet, sistem informasi global yang berbasis-komputer. Internet adalah terdiri atas banyak jaringan komputer saling terhubung. Setiap jaringan dapat menghubungkan puluhan, ratusan, atau bahkan beribu-ribu komputer, memungkinkan mereka untuk berbagi informasi satu sama lain dan untuk berbagi sumber-sumber daya komputasional seperti ‘super computer’ serta basis data kuat informasi. Internet telah membuat itu mungkin untuk orang di seluruh dunia untuk berkomunikasi satu sama lain secara efektif dan dengan murah. Tidak seperti media penyiaran tradisional, seperti radio dan televisi, Internet tidak mempunyai satu sistem distribusi terpusat. Sebagai gantinya, seorang individu yang mempunyai Akses Internet bisa berkomunikasi secara langsung dengan siapapun lainnya di Internet, membuat informasi tersedia kepada lain, menemukan informasi disediakan oleh lain, atau menjual produk dengan satu biaya ‘overhead’ minimum.

Secara umum, user interface Rekso masih belum banyak berubah sejak pendahulunya: Transtool. Pengguna pertama kali, mungkin harus baca buku manual nya baik-baik, karena menggunakannya tidak bisa menggunakan intuisi seperti program-ppogram aplikasi Windows pada umumnya. Kemampuan mengucapkan (Text to Speech) yang ditawarkan kompetitornya pun belum bisa ditiru oleh Rekso versi terbaru ini.

Kemarin sore, saya bertemu dengan beberapa rekan dari kalangan bisnis untuk ngobrol-ngobrol seputar penggunaan Teknologi Bahasa dalam layanan telekomunikasi. Ada satu keinginan suatu layanan, dimana orang bisa mengucapkan pesan, lalu dikirim via SMS. Tersedia kah teknologinya?

Teknologinya tersedia, disebut Speech Recognition (kadang disebut Speech to Text). Sistem seperti itu sudah cukup lama tersedia, mengenali ucapan manusia, lalu mengubahkan menjadi teks atau tulisan. Seberapa hebat sistem ini yang sudah ada? Beberapa sistem sudah meng-klaim mencapai akurasi 99%, diantaranya yang terkenal adalah Dragon Naturally Speaking. Apakah betul?

Silakan coba software tersebut. Sangat mungkin anda tidak dapat mencapai akurasi yang dijanjikan tersebut. Mengapa?

  • Mungkin anda menggunakan mikrofon murahan, sehingga banyak noise yang masuk
  • Mungkin lingkungan sekitar anda terlalu banyak noise, misalnya di ruangan bersama kantor yang sangat gaduh, atau bahkan di dalam mobil dimana banyak suara dari luar mobil
  • Mungkin logat daerah anda sangat kental, sehingga anda tidak dapat mengucapkan ucapan-ucapan bahasa Inggris tersebut dengan benar, atau ….
  • Mungkin anda mengucapkannya dengan latar belakang music kesukaan anda, walaupun volumenya tidak terlalu besar.

Nah, itulah sejumlah kelemahan speech recognition yang ada. Akurasi yang dijanjikan pada prinsipnya  bisa dipercaya, tapi kita harus sadar  kondisi idealnya untuk mencapai akurasi tersebut.  Speech Recognition yang ada masih rawan terhadap noise, baik noise yang benar-benar berupa gangguan (misalnya kegaduhan) atau noise yang indah, misalnya Phil Collins sedang menyanyi di belakang kita. Speech recognition bekerja dengan cara mencari kemiripan dengan library potongan kata yang ada di dalam databasenya (corpus). Ketika sebuah sistem dilatih dengan korpus British English, akan sulit mengenali ucapan Inggris-Jawa, Inggris-Sunda, Inggris-Cina, dan sebagainya. Walaupun sama-sama bahasa Inggris.

Jadi, kembali lagi ke awal pembicaraan kita. Speech Recognition yang ada saat ini masih sulit (bukan tidak mungkin) untuk diaplikasi pada aplikasi yang diharapkan dapat mengenali seluruh kata. Namun, sangat mungkin untuk digunakan dalam aplikasi yang jumlah kosa katanya terbatas. Mengapa? Mengidentifikasikan, katakanlah 40 kata jauh lebih mudah dari pada mengidentifikasikan 100 ribu kata. Banyak aplikasi dengan jumlah kata terbatas yang sudah menggunakan teknologi ini untuk layanan telekomunikasi.

Telinga dan Otak Manusia sebagai prosesornya mempunyai kemampuan yang lebih superior. Manusia dengan mudah memisahkan antara pembicara dengan suara musik di latar belakang, asal suara musik tersebut tidak melampaui intensitas tertentu yang mengganggu. Komputer masih sangat sulit melakukan itu. Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misalkan dalam satu keramaian konser musik, anda berbicara dengan teman di sebelah, masih bisa memahami apa yang diucapkan. Jangan berharap sistem Speech Recognition bisa melakukan itu!!!

Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan pemrosesan sinyal suara. Pemrosesan tersebut sekarang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang banyak sama dengan komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telinga dan otak manusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Telinga dan otak manusia mungkin bekerja dengan prinsip yang berbeda……….., mungkin tidak berbasis pemisahan frekuensi. Sensor dalam telinga manusia berupa  rambut-rambut halus yang jumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikrofon. Oleh karena itu, salah satu arah riset yang berkembang adalah penggunaan array mikrofon untuk menirukan banyaknya sensor dalam telingan manusia.

Nah, sebagai penutup, untuk mendapatkan sistem yang lebih mendekati kehebatan telinga dan otak, saya kira perlu satu penemuan yang fundamental yang mengubah cara pemrosesan sinyal berbasis frekuensi menjadi cara lain yang mungkin berbeda sama sekali. Siapa tahu anda bisa menemukan itu. Kalo bisa, pasti ada dua yang bisa anda raih, pertama kemungkinan masuk surga karena ilmu anda akan digunakan terus dalam peradaban manusia, kedua, sangat mungkin anda menjadi peraih NOBEL.

Tulisan ini dipoting di http://kupalima.wordpress.com dan https://teknologibahasa.wordpress.com

Pembentukan ucapan pada pensintesa ucapan menggunakan metoda diphone concatenation pada prinsipnya dilakukan dengan cara menyusun sejumlah diphone yang bersesuaian sehingga diperoleh ucapan yang diinginkan. Sebagai contoh, pada gambar diperlihatkan pembentukan kata atau ucapan “komputer” yang disusun dari diphone-diphone /_k/, /ko/, /om/ dan seterusnya.


Gambar. Pembentukan Ucapan “komputer” dari Diphone-Diphone nya

Supaya pensitesa ucapan dapat mengucapkan semua kemungkinan kata atau kalimat yang ada dalam suatu bahasa, sehingga sistem tersebut harus didukung oleh diphone database yang terdiri dari semua kombinasi diphone yang ada dalam bahasa tersebut.

Diphone concatenation engine atau unit pemroses diphone akan menerima masukan berupa daftar fonem yang ingin diucapkan, masing-masing disertai oleh durasi pengucapannya, serta pitch atau frekuensinya. Berdasarkan daftar fonem yang diterima, unit ini akan menentukan susunan diphone yang sesuai. Selanjutnya, unit ini akan melakukan smoothing sambungan antar diphone, melakukan manipulasi durasi pengucapan serta manipulasi pitch (lihat Gambar di bawah). Pada akhirnya, diphone concatenation engine akan menghasilkan sinyal ucapan yang sesuai.


Gambar. Pembentukan Ucapan “komputer” dari Diphone-Diphone nya

Sejumlah teknik untuk pemrosesan diphone telah dikembangkan oleh berbagai pihak, diantaranya adalah autoregressive (AR), Glottal AR, hybrid harmonic/stocastic, time domain PSOLA (TD-PSOLA), multiband resynthesis-PSOLA (MBR-PSOLA), serta Linear Prediction-PSOLA (LP-PSOLA) [Dut97].

Arry Akhmad Arman

Seperti telah disinggung sebelumnya, suatu sistem Text to Speech pada prinsipnya terdiri dari dua sub sistem, yaitu :

1) bagian Konverter Teks ke Fonem (Text to Phoneme), serta

2) bagian Konverter Fonem to Ucapan (Phoneme to Speech).

Bagian Konverter Teks ke Fonem berfungsi untuk mengubah kalimat masukan dalam suatu bahasa tertentu yang berbentuk teks menjadi rangkaian kode-kode bunyi yang biasanya direpresentasikan dengan kode fonem, durasi serta pitch-nya. Bagian ini bersifat sangat language dependant. Untuk suatu bahasa baru, bagian ini harus dikembangkan secara lengkap khusus untuk bahasa tersebut.

Bagian Konverter Fonem ke Ucapan akan menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya. Berdasarkan kode-kode tersebut, bagian Konverter Fonem ke Ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan. Ada beberapa alternatif teknik yang dapat digunakan untuk implementasi bagian ini. Dua teknik yang banyak digunakan adalah formant synthesizer, serta diphone concatenation.

Formant synthesizer bekerja berdasarkan suatu model matematis yang akan melakukan komputasi untuk menghasilkan sinyal ucapan yang diinginkan. Synthesizer jenis ini telah lama digunakan pada berbagai aplikasi. Walaupun dapat menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, synthesizer ini tidak dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.

Synthesizer yang menggunakan teknik diphone concatenation bekerja dengan cara menggabung-gabungkan segmen-segmen bunyi yang telah direkam sebelumnya. Setiap segmen berupa diphone (gabungan dua buah fonem). Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat kealamian (naturalness) yang tinggi.

Struktur sistem seperti di atas pada prinsipnya merupakan konfigurasi tipikal yang digunakan pada berbagai sistem Text to Speech berbagai bahasa. Namun demikian, pada setiap sub-sistem terdapat sifat-sifat serta proses-proses yang sangat spesifik dan sangat tergantung dari bahasanya.

Konversi dari teks ke fonem sangat dipengaruhi oleh aturan-aturan yang berlaku dalam suatu bahasa. Pada prinsipnya proses ini melakukan konversi dari simbol-simbol tekstual menjadi simbol-simbol fonetik yang merepresentasikan unit bunyi terkecil dalam suatu bahasa. Setiap bahasa memiliki aturan cara pembacaan dan cara pengucapan teks yang sangat spesifik. Hal ini menyebabkan implementasi unit konverter teks ke fonem menjadi sangat spesifik terhadap suatu bahasa.

Untuk mendapatkan ucapan yang lebih alami, ucapan yang dihasilkan harus memiliki prosodi. Secara kuantisasi, prosodi adalah perubahan nilai pitch selama pengucapan kalimat dilakukan atau pitch sebagai fungsi waktu. Pada prakteknya, informasi pembentuk prosodi berupa data-data pitch serta durasi pengucapannya untuk setiap fonem yang dibangkitkan. Nilai-nilai yang dihasilkan diperoleh dari suatu model prosodi. Prosodi bersifat sangat spesifik untuk setiap bahasa, sehingga model yang diperlukan untuk membangkitkan data-data prosodi menjadi sangat spesifik juga untuk suatu bahasa. Beberapa model umum prosodi pernah dikembangkan, tetapi untuk digunakan pada suatu bahasa masih perlu banyak penyesuaian yang harus dilakukan.

Konverter fonem ke ucapan berfungsi untuk membangkitkan sinyal ucapan berdasarkan kode-kode fonem yang dihasilkan dari proses sebelumnya. Sub sistem ini harus memiliki pustaka setiap unit ucapan dari suatu bahasa. Pada sistem yang menggunakan teknik diphone concatenation, sistem harus didukung oleh suatu diphone database yang berisi rekaman segmen-segmen ucapan yang berupa diphone. Ucapan dalam suatu bahasa dibentuk dari satu set bunyi yang mungkin berbeda untuk setiap bahasa, oleh karena itu setiap bahasa harus dilengkapi dengan diphone database yang berbeda.

Tahapan-tahapan utama konversi dari teks menjadi ucapan dapat dinyatakan dengan diagram seperti terlihat pada Gambar 2.7.

Tahap normalisasi teks berfungsi untuk mengubah semua teks kalimat yang ingin diucapkan menjadi teks yang secara lengkap memperlihatkan cara pengucapannya. Lihat contoh kalimat dan hasil normalisasinya pada Gambar 2.8.

Tahap berikutnya adalah melakukan konversi dari teks yang sudah secara lengkap merepresentasikan kalimat yang ingin diucapkan menjadi kode-kode fonem. Konversi teks menjadi fonem biasanya dilakukan dengan dua cara. Sebagian proses konversi dapat dilakukan dengan aturan konversi yang sederhana dan berlaku umum untuk berbagai kondisi. Sebagian proses lainnya bersifat kondisional, tergantung dari huruf-huruf atau fonem-fonem tetangganya, bahkan terdapat bentuk-bentuk translasi yang tidak dapat ditemukan keteraturannya.

Konversi yang teratur dapat diimplementasikan dengan tabel konversi yang berisi pasangan antara urutan huruf dan urutan fonem, bahkan mungkin hanya berisi satu huruf dan satu fonem. Aturan yang lebih sulit biasanya diimplementasikan dengan tabel konversi yang akan diterapkan jika kondisi rangkaian huruf tetangga kiri dan kanannya terpenuhi. Contoh bentuk aturan konversi huruf ke fonem yang memenuhi teknik tersebut adalah sebagai berikut.

Left-context [letter-set] right-context = phoneme string

Huruf tertentu yang ditunjuk dalam posisi [letter-set] akan dikonversikan menjadi suatu fonem dalam “phoneme string” jika left-context dan right context terpenuhi.

Gambar 2.7. Urutan Proses Konversi dari Teks ke Ucapan
(dimodifikasi dari Pelton, 1992)

Bahasa Inggris termasuk bahasa yang mempunyai keteraturan yang rendah untuk proses konversi teks ke fonem. Suatu TTS bahasa Inggris biasanya dilengkapi dengan suatu basis data yang berisi ribuan kata serta konversi padanan urutan fonemnya. Bahasa Indonesia termasuk bahasa yang jelas aturan konversinya. Sebagian besar kata dalam Bahasa Indonesia dapat dikonversikan menjadi fonem dengan aturan yang jelas dan sederhana, walaupun tetap ada kondisi-kondisi yang tidak dapat ditemukan keteraturannya. Sebagai contoh, simbol huruf e dapat diucapkan sebagai e pepet atau e taling, artinya harus dikonversikan menjadi fonem yang berbeda untuk kondisi yang berbeda. Dalam blok diagram di atas, kondisi yang masih dapat ditangani oleh aturan diimplementasikan dengan blok Letter to Phoneme Conversion. Konversi yang tidak teratur ditangani oleh bagian Exception Dictionary Lookup.

Gambar 2.8. Besaran-besaran Dalam Setiap Tahap Proses Konversi
dari Teks ke Ucapan (dimodifikasi dari Pelton, 1992)

Hasil dari tahap tersebut adalah rangkaian fonem yang merepresentasikan bunyi kalimat yang ingin diucapkan. Bagian prosody generator akan melengkapi setiap unit fonem yang dihasilkan dengan data durasi pengucapannya serta pitchnya. Data durasi serta pitch diperoleh berdasarkan kombinasi antara tabel (database) serta model prosodi. Secara simbolik, hasil dari bagian ini sudah menghasilkan informasi yang cukup untuk menghasilkan ucapan yang diinginkan.

Satu tahap berikutnya yang masih sering dilakukan adalah Phonetic Analysis. Tahap ini dapat dikatakan sebagai tahap penyempurnaan, yaitu melakukan perbaikan di tingkat bunyi. Sebagai contoh, dalam bahasa Indonesia, fonem /k/ dalam kata bapak tidak pernah diucapkan secara tegas, atau adanya sisipan fonem /y/ dalam pengucapan kata alamiah antara fonem /i/ dan /a/.

Kurun Waktu Ketiga

Selama 50 tahunan, teknologi pensintesa ucapan mengalami banyak perubahan. Penemuan komputer digital telah memungkinkan untuk melakukan simulasi sebelum melakukan pengembangan perangkat keras. Sekitar tahun 1960-an, teknik analisis dan sintesa ucapan terbagi menjadi dua pendekatan. Pendekatan pertama disebut articulatory synthesis. Dalam pendekatan ini, mekanisme produksi ucapan dimodelkan secara fisiologi dengan cukup rinci. Pendekatan lainnya disebut terminal-analogue synthesis. Pada pendekatan kedua ini, ucapan dimodelkan dengan model apapun. Orientasinya lebih ditekankan pada usaha untuk memodelkan sinyal ucapan, bukan pada bagaimana cara membangkitkannya.

Sebelum adanya komputer digital, sebenarnya belum ada sistem seperti yang sekarang kita kenal sebagai sistem TTS. Pengembangan yang ada saat itu hanya terbatas pada bagian untuk membangkitkan atau mensintesa ucapannya saja. TTS yang melakukan konversi secara otomatis dari mulai teks berkembang setelah adanya komputer digital.

Pada tahun 1931, perusahaan Audichron membuat mesin pertama yang secara otomatis dapat mengucapkan waktu dan temperatur melalui saluran telpon. Sejak itu, banyak dikembangkan perangkat elektrik yang berhubungan dengan aplikasi ucapan, diantaranya adalah spektograf suara yang dapat menampilkan pola ucapan pada layar CRT.

Salah satu sistem komersial yang menerapkan teknologi komputer digital untuk aplikasi pemrosesan ucapan adalah IBM 7770 Audio Response Unit yang menggunakan drum berputar untuk menyimpan data-data ucapan. Pada awal tahun 1980-an berkembang beberapa sistem lainnya yang menggunakan komputer mainframe atau komputer mini. Dengan sistem ini, sejumlah institusi finansial saat itu dapat memberikan layanan sistem otomatis melalui pesawat telpon. Keadaan tersebut berubah semakin cepat setelah teknologi IC serta komputer mikro berkembang dengan pesat.

Berkembangnya komputer digital tidak hanya menyebabkan berkembangnya sistem TTS, tetapi juga melahirkan alternatif-alternatif baru untuk mengimplementasikan bagian pembangkit ucapannya. Pada era komputer digital, pembangkitan ucapan dilakukan menggunakan algoritma-algoritma pemrosesan sinyal digital yang diimplementasikan menggunakan perangkat lunak.

Bentuk pensintesa digital yang berkembang pada awalnya adalah pensintesa yang dikenal dengan istilah formant synthesizer, bekerja dengan cara mensimulasikan komponen-komponen frekuensi utama pembentuk ucapan yang disebut formant. Salah satu pensintesa ucapan jenis ini yang populer dan banyak digunakan pada berbagai aplikasi adalah cascade-parallel formant synthesizer yang pertama kali diusulkan oleh Dennis Klatt pada tahun 1990. Synthesizer tersebut merupakan pengembangan dari generasi sebelumnya yang juga dirancang oleh Klatt pada tahun 1980.

Pensintesa formant tidak dapat menghasilkan suara dengan tingkat kealamian yang tinggi, sehingga perkembangan TTS mengarah pada pencarian alternatif untuk mencari pendekatan yang dapat menghasilkan ucapan yang lebih alami. Seiring dengan kecepatan prosesor serta media penyimpanan komputer yang semakin tinggi, pendekatan tersebut mengarah pada sistem yang melakukan penggabungan segmen-segmen ucapan yang direkam sebelumnya. Berdasarkan berbagai pertimbangan teknis dan kualitas yang ingin dicapai, bentuk segmen yang dianggap paling optimum dan banyak digunakan adalah diphone atau dua fonem yang berurutan. Pendekatan dengan cara penyusunan ucapan dari diphone ini disebut diphone concatenation.

Tantangan teknis utama pada teknik diphone concatenation adalah mencari algoritma untuk menggabungkan diphone dengan diphone lainnya, serta algoritma untuk memanipulasi diphone, khususnya untuk mengubah durasi serta pitch diphone. Berbagai teknik yang berkembang untuk mendukung pensintesa jenis ini diantaranya adalah autoregressive (AR), Glottal AR, hybrid harmonic/stocastic, time domain PSOLA (TD-PSOLA), multiband resynthesis-PSOLA (MBR-PSOLA), serta Linear Prediction-PSOLA (LP-PSOLA) [Dut97].

Kini, speech synthesizer berkualitas tinggi telah tersedia untuk sejumlah bahasa, misalnya Bahasa Inggris, Perancis, Belanda, Jerman dan beberapa bahasa lainnya. Namun demikian, speech synthesizer untuk bahasa Indonesia sampai dengan saat ini belum tersedia. Salah satu perusahaan yang telah menghasilkan TTS berkualitas baik adalah perusahaan Lernout and Hauspie di Belgia. Perusahaan tersebut sudah memproduksi sistem TTS berkualitas tinggi untuk bahasa Inggris, Jerman, Perancis, Belanda, Spanyol dan Portugis.

Kurun Waktu Kedua

Sejak 1930 para peneliti mulai menggunakan model elektrik untuk analisis dan menirukan ucapan. Pensintesa elektrik pertama yang berfungsi untuk menghasilkan ucapan adalah Dudley’s voder. VODER (Voice Operated DEmonstratoR) dikembangkan oleh Bell Laboratories. VODER merupakan sistem elektronik analog yang mensimulasikan bagian-bagian alat ucap manusia. VODER pertama kali diperkenalkan kepada publik dalam suatu pameran di New York pada tahun 1939. Pada saat tersebut berhasil didemonstrasikan bagaimana manusia dapat berdialog dengan mesin VODER yang dimainkan oleh seorang operator.

Gambar 2.5. VODER dalam New York World’s Fair
pada Tahun 1939 [Pel92]

Gambar 2.6 memperlihatkan blok diagram VODER serta ekivalensinya dengan alat-alat ucap manusia. Suara bersumber dari dua buah sumber bunyi, yaitu : noise dan osilator. Sumber noise disediakan untuk mensintesa ucapan yang menyerupai noise, sedangkan osilator untuk ucapan lainnya. Frekuensi osilator dikendalikan oleh pedal. Frekuensi yang dihasilkan akan menentukan pitch dari bagian ucapan yang dihasilkan. Sumber yang dihasilkan akan dilewatkan pada sepuluh bandpass filter yang dihubungkan secara paralel dan masing-masing frekuensinya dapat diatur. Tiga pengatur lainnya disediakan untuk mengatur proses transien, yaitu untuk reproduksi konsonan stop, yaitu t, d, p, b, k, g. Mesin ini berhasil membangkitkan suara yang intelligible. Mesin ini harus dimainkan oleh seorang operator yang sangat terlatih.

Gambar 2.6. Ekivalensi VODER dengan
Alat Ucap Manusia [Pel92]