Di berbagai
media, Anda mungkin pernah menyaksikan Stephen Hawking berbicara di depan
mahasiswanya. Fisikawan yang terkenal dengan teori black hole-nya ini sudah
tidak mampu lagi mengeluarkan suara dari lisannya, namun berkat teknologi
speech synthesizer, dia masih bisa bercakap-cakap. Mesin speech synthesizer
Hawking memang cukup kompleks. Alat ini tidak hanya memproduksi suara, tetapi
juga menangkap input dari gerakan mata sang doktor. Demikian pula, misalnya,
dengan aplikasi voice command yang banyak tertanam di smartphone mutakhir yang
memadukan speech recognizer dengan speech synthesizer.
Aplikasi
speech synthesizer yang paling sederhana sebenarnya ada pada setiap PC ber-OS
Windows. Bila anda menekan tuts Winkey + U di keyboard, Windows akan
mengaktifkan Utility Manager, yang di dalamnya terdapat aplikasi Microsoft
Narrator. Aplikasi ini akan membaca setiap jendela yang anda aktifkan, termasuk
tombol-tombol di dalamnya. Atau, mungkin anda pernah menginstal aplikasi
microsoft reader di PC. Aplikasi yang diperuntukkan bagi file >LTT ini pun
dilengkapi dengan kemampuan menerjemahkan teks menjadi suara (text to speech)
yang merupakan contoh teknologi speech sybthesizer.
Apa itu Speech Synthesis?
Speech
synthesis adalah sebuah kemampuan bicara manusia yang dibuat oleh manusia
(artificial). Sebuah sistem komputer digunakan untuk tujuan ini yang disebut
sebagai speech synthesizer, dan dapat diimplementasikan ke dalam software atau
hardware. Sebagai contoh sebuah sistem text-to-speech (TTS) yang dapat
mengkonversikan teks dengan bahasa biasa menjadi suara.
Sebuah sistem
komputer yang digunakan untuk tujuan ini disebut speech
synthesizer, dan dapat diimplementasikan dalam perangkat
lunak atau perangkat
keras produk. Sebuah teks-to-speech (TTS) sistem
mengkonversi teks bahasa normal menjadi berbicara; sistem lain
membuat representasi linguistik simbolik seperti transkripsi
fonetik ke dalam pidato, pidato disintesis dapat dibuat dengan
menggabungkan potongan pidato direkam yang disimpan dalam database. Sistem
berbeda dalam ukuran unit pidato disimpan, sebuah sistem yang menyimpan telepon
atau diphones menyediakan berbagai keluaran terbesar, tapi mungkin kurang
jelas.
Speech
synthesis adalah transformasi dari teks ke arah suara (speech).
Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis) yang
sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan –
aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk
membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks
dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem
komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu
orang-orang yang kehilangan kemampuan melihat dan membaca.
Synthesized
speech dapat diciptakan dengan menggabungkan beberapa potongan-potongan dari
pembicaraan/pidato yang sudah direkam dalam sebuah basis data. Kualitas dari
sebuah speech synthesizer dilihat dari kemiripannya dengan suara manusia dan
kemampuannya untuk bisa dipahami. Program TTS yang jelas dapat membantu orang
dengan gangguan visual atau ketidakmampuan membaca, untuk mendengarkan pada
pekerjaan yang tertulis dalam komputer. Banyak Sistem Operasi komputer yang
telah dimasukkan speech synthesizer sejak tahun 1980-an.
Sebuah sistem
text-to-speech (atau "mesin") terdiri dari dua bagian: front-end dan back-end . Front-end
memiliki dua tugas utama. Pertama, mengubah teks mentah berisi simbol
seperti angka dan singkatan menjadi setara dengan kata-kata
tertulis-out. Proses ini sering disebut normalisasi teks,
pra-pengolahan, atau tokenization . Front-end kemudian
memberikan transkripsi fonetik untuk setiap kata, dan membagi dan
menandai teks ke unit prosodi ,
seperti frase , klausa ,
dan kalimat . Proses menetapkan transkripsi fonetik untuk
kata-kata ini disebut teks-ke-fonem atau grafem konversi -untuk-fonem. Transkripsi
fonetik dan informasi prosodi bersama-sama membentuk representasi linguistik
simbolik yang output dengan front-end. Back-end-sering disebut
sebagai synthesizer-maka mengubah representasi linguistik simbolik
menjadi suara. Dalam sistem tertentu, bagian ini meliputi perhitungan
dari target prosodi (kontur pitch, durasi fonem), yang kemudian
dikenakan pada pidato output.
Teknologi Speech Synthesis
Yang paling
penting dalam kualitas sistem speech synthesis adalah kealamian dan
kejelasannya. Kealamaian menjelaskan bagaimana dekatnya suara output dengan
suara manusia, sementara kejelasan adalah dengan kemudahan di mana output
tersebut dapat dipahami. Speech synthesizer yang ideal adalah yang alami dan
jelas. Sistem speech synthesis biasanya mencoba untuk memaksimalkan kedua
karakteristik.
Kualitas
terpenting dari sebuah aplikasi speech synthesizer adalah seberapa alami dan
inteligibel output yang dihasilkannya. Alami, artinya seberapa dekat suara yang
dihasilkan aplikasi speech synthesizer dengan suara manusia. Sedangkan
inteligibel adalah seberapa mudah output tersebut dipahami oleh manusia. Semua
aplikasi speech synthesizer berusaha untuk menghasilkan output yang alami dan
inteligibel sekaligus. Sampai saat ini, ada banyak teknologi untuk
meng-generate gelombang suara sintetis ini. Dua teknologi yang paling banyak
digunakan adalah concatenative synthesis dan formant synthesis. Keduanya
memiliki keunggulan dan kekurangan sendiri-sendiri.
Teknologi
pertama, concatenative synthesis, berbasis pada rangkaian (atau merangkai
bersama) segmen-segmen dari suara yang direkam. Umumnya, teknologi ini
menghasilkan suara sintesis yang terdengar paling alami.Namun, perbedaan antara
suara alami yang direkam dengan segmentasi gelombang bunyi kadang menghasilkan
suara yang menggangu. Mirip seperti suara pemberitahuan nomor antrean di bank
atau suara call center operator ponsel yang menyebutkan sisa pulsa dan masa
berlaku kartu ponsel anda.
Teknologi
kedua, formant synthesis, tidak menggunakan sampel suara manusia melainkan
membuat suara sintesi menggunakan model akustik. Parameter-parameter seperti
frekuensi dasar, alunan suara, dan tingkat kebisingan bervariasi dari waktu ke
waktu untuk menciptakan gelombang suara buatan.
Kebanyakan aplikasi berbasis teknologi ini menghasilkan suara buatan (tidak alami) seperti suara robot. Melihat keterbatasan kedua teknologi ini dalam menghasilkan suara buatan, seperti kita harus sabar menunggu pengembangannya lebih lanjut dalam beberapa tahun atau dekade ke depan.
Kebanyakan aplikasi berbasis teknologi ini menghasilkan suara buatan (tidak alami) seperti suara robot. Melihat keterbatasan kedua teknologi ini dalam menghasilkan suara buatan, seperti kita harus sabar menunggu pengembangannya lebih lanjut dalam beberapa tahun atau dekade ke depan.
Kualitas yang
paling penting dari sebuah sistem sintesis
pidato kewajaran dan dimengerti. kealamian menjelaskan seberapa
dekat output terdengar seperti suara manusia, sementara kejelasan adalah
kemudahan yang output dipahami. Speech synthesizer yang ideal adalah baik
alam dan dimengerti. Sistem sintesis pidato biasanya mencoba untuk
memaksimalkan kedua karakteristik.
Dua teknologi
utama dalam pembuatan gelombang suara synthetic speech adalah Concatenative
Synthesis dan Formant Synthesis. Setiap teknologi mempunyai kekuatan dan
kelemahannya, dan penggunaan yang ditujukan dari sistem synthesis akan
menentukkan pendekatan mana yang digunakan.
Ada beberapa masalah yang terdapat pada pemaduan suara, yaitu:
· User sangat sensitif terhadap variasi dan
informasi suara. Oleh sebab itu, mereka tidak dapat memberikan toleransi atas
ketidaksempurnaan pemadu suara.
·
Output dalam bentuk suara tidak dapat diulang
atau dicari dengan mudah.
· Meningkatkan keberisikan pada lingkungan kantor
atau jika menggunakan handphone, maka akan meningkatkan biaya pengeluaran.
Lingkungan dari aplikasi pemadu
suara adalah:
· Bagi tunanetra, pemadu suara menawarkan media
komunkasi dimana mereka dapat memiliki akses yang tidak terbatas.
· Lingkungan dimana visual dan haptic skill user
berfokus pada hal lain. Contohnya: sinyal bahaya pada kokpit pesawat udara.
Refrensi
http://byustyo.blogspot.co.id/2010/10/speech-synthesis.html
Tidak ada komentar:
Posting Komentar