SPEECH SYNTHESIS

Saturday, November 6, 2010
SPEECH SYNTHESIS

Pengertian Speech Synthesis
         Speech synthesis atau pidato sintesis adalah produksi buatan manusia pidato. Sebuah sistem komputer yang digunakan untuk tujuan ini disebut speech synthesizer, dan dapat diimplementasikan dalam perangkat lunak atau perangkat keras. text-to-speech (TTS) sistem bahasa normal mengkonversi teks ke dalam pidato. sistem lain membuat representasi linguistik simbolis seperti transkripsi fonetik bicara.
 
Pidato buatan dapat dibuat dengan potongan-potongan concatenating pidato yang direkam disimpan dalam database. Sistem berbeda dalam ukuran pidato yang disimpan unit; sebuah sistem yang menyimpan telepon memberikan rentang output terbesar, tapi mungkin kurang jelas. Untuk keperluan khusus domain, yang menyimpan seluruh kata-kata atau kalimat memungkinkan output yang berkualitas tinggi. Atau, synthesizer dapat menggabungkan sebuah model dari sistem vokal dan karakteristik suara manusia lain untuk membuat yang benar-benar “sintetik” output suara. Kualitas synthesizer pidato dinilai oleh kesamaan dengan suara manusia dan kemampuannya untuk dipahami. semua dimengerti text-to-speech program yang memungkinkan orang-orang dengan gangguan visual atau membaca untuk mendengarkan karya-karya tulis di komputer rumah. Banyak sistem operasi komputer termasuk alat bicara sejak awal 1980-an.
 
Pengertian text to speech (TTS)
          Text-to-Speech (TTS) kemampuan untuk komputer mengacu pada kemampuan untuk memutar ulang teks dalam suara yang diucapkan.. TTS adalah kemampuan operasi sistem untuk kembali dicetak bermain teks diucapkan sebagai kata-kata.
 
A text-to-speech system (atau “mesin”) adalah terdiri dari dua bagian: front-end dan back-end. Front-end memiliki dua tugas utama. Pertama, mengubah teks mentah berisi simbol seperti angka dan singkatan menjadi setara dengan tertulis-kata-kata. Proses ini sering disebut normalisasi teks, pra-pengolahan,atau tokenization. Front-end kemudian menetapkan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke prosodic unit seperti frase dan kalimat. Proses transkripsi fonetik untuk menetapkan kata-kata ini disebut teks-ke-fonem atau grafem-ke-fonem konversi. Fonetis transkripsi dan informasi ilmu persajakan bersama-sama membentuk representasi simbolik yang linguistik output dengan front-end. Back-end-sering disebut sebagaisynthesizer-maka mengubah representasi linguistik simbolik menjadi suara.
 
SEJARAH
  • Jauh sebelum elektronik pemrosesan sinyal ditemukan, ada orang-orang yang mencoba membuat mesin untuk membuat suara manusia. Some early legends of the existence of "speaking heads" involved Gerbert of Aurillac (d. 1003 AD), Albertus Magnus (1198–1280), and Roger Bacon (1214–1294). Beberapa legenda awal adanya "kepala berbicara" terlibat Gerbert dari Aurillac (wafat 1003 M), Albertus Magnus (1198-1280), dan Roger Bacon (1214-1294).
  • Pada tahun 1779, yang Denmark ilmuwan Kristen Kratzenstein, bekerja di Akademi Ilmu Pengetahuan Rusia , model dibangun dari manusia saluran vokal yang dapat menghasilkan lima panjang vokal suara (dalam International Alphabet Fonetik notasi, mereka adalah A, E, I, U, O Mesin ini ditambahkan model lidah dan bibir, memungkinkan untuk menghasilkan konsonan maupun vokal. In 1837, Charles Wheatstone menghasilkan "mesin bicara" berdasarkan Kempelen's desain von, dan pada tahun 1857.
  • Pada 1930, Bell Labs mengembangkan vocoder , yang dioperasikan elektronik pidato analyzer-keyboard dan synthesizer yang dikatakan dengan jelas dipahami. Homer Dudley halus perangkat ini ke dalam VODER, yang dipamerkan di New York World's Fair 1939 . 
  • Pada akhir tahun 1940an dan selesai pada 1950.Ada beberapa versi yang berbeda dari perangkat keras tetapi hanya satu saat ini bertahan. Mesin mengkonversi gambar dari pola akustik pidato dalam bentuk spektrogram kembali menjadi suara. Dengan menggunakan perangkat ini, Alvin Liberman dan rekan mampu menemukan isyarat akustik untuk persepsi fonetis segmen (konsonan dan vokal).
  • Pada 1980-an dan 1990-an adalah mesin MITalk salah satu multibahasa system bahasa independent yang pertama, membuat luas penggunaan Alam Pengolahan Bahasa metode.
  • Awal synthesizer pidato elektronik terdengar robot dan sering hampir tidak dimengerti. Kualitas suara sintesis telah terus membaik, tetapi output dari sistem sintesis pidato kontemporer masih jelas dibedakan dari suara manusia yang sebenarnya.
  • Sebagai performa rasio biaya menyebabkan synthesizer pidato menjadi lebih murah dan lebih mudah diakses oleh rakyat, lebih banyak orang akan mendapatkan keuntungan dari penggunaan-to-speech program teks.
Teknologi Synthesizer
          Dua teknologi utama untuk menghasilkan bentuk gelombang pidato sintetis sintesis concatenative dan forman sintesis.

 
Sumber :
http://anaksalendu.wordpress.com/2009/11/29/browsing-audio-data-speech-recognitionspeech-synthesis
http://en.wikipedia.org/wiki/Speech_synthesis

0 comments: