Kedy technológia Text-to-Speech (TTS) ovládne audioknihy?

Text-to-Speech (TTS) alebo inak “text do reči” je technológia, ktorá nevznikla až tak nedávno. Prvý systém, ktorý dokázal vytvárať syntézou napodobeninu ľudského hlasu, vznikol už v roku 1968. Odvtedy sa zdokonaľoval každým rokom. Keď Amazon na svojom Kindle zaviedol Whispersync for Voice, začalo sa vážne hovoriť o nahradení interpretov počítačmi. Je takáto zámena možná? Bolo by pre nás ľudí alternatívou počúvať miesto ľudského hlasu počítačový syntetizátor?

Ako funguje TTS

TTS systém sa skladá z viacerých modulov. Na začiatku je analyzovaný vstupný text, ktorý má byť preložený do výslednej reči. Následne dochádza k lingvistickej analýze intonácie, tempa, dĺžky trvania či polohe hlasu. Každé slovo, fráza a veta sú symbolicky nahradené fonetickým prepisom do takzvaných “fenoménov” z ktorých sa následne generuje zvuková vlna napodobňujúca ľudský hlas. Veľmi zjednodušene. Nechcem však zachádzať hlbšie do celej problematiky. O to tu nejde.

Stačí nám len chápať, že imitovať ľudský hlas za pomoci počítačov a elektronických zariadení je stále komplikovaný a veľmi komplexný proces.

tts-system
Zdroj: wikipedia.org

Využitie TTS

Technológia TTS mala od začiatku dva hlavné prúdy využitia. Prvým boli ľudia s poruchami zraku a učenia, tým druhým technologický nadšenci hľadajúci spôsob, ako komunikovať s počítačmi a zariadeniami cez hovorené slovo. Pre prvých TTS prinieslo možnosť čítať, pre druhých možnosť vnímať stroje aspoň čiastočne ako možných spoločníkov. Aj vďaka ich túžbe spraviť takúto spoločnosť čo najvernejšou sa TTS z úzadia dostal ho “hlavných správ”.

TTS ide mainstream

Pokiaľ TTS bol v minulosti ťažko dostupný a finančne náročný systém, v poslednej dekáde sa stal prístupným každému. V dnešnej dobe neexistuje operačný systém na počítači či mobilnom telefóne, ktorý by TTS v takej či onakej forme nepodporoval. Každé zariadenie je v dnešnej dobe schopné “rozprávať” s nami. Síce stále pasívne, ale predsa hovoreným slovom.

Rozšírením TTS za hranice limitovanej užívateľskej bázy sa o technológiu začalo zaujímať mnoho inštitúcií, firiem, univerzít ako aj jednotlivcov. Zdokonaľovanie rôznych algoritmov a technológií sa stalo doslovne mainstreamovým hnutím. Už to nebolo len o tom naučiť stroj čítať text čo najvernejšie ľudskému čítaniu, ale aj o zdokonaľovaní prejavu samotného. Aj počítače sa naučili dýchať, chraptiť a syčať.

Karty sa miešajú

Keď do hry vstúpil Amazon so svojim Whispersync for Audio, ľudia z audioknižného trhu spozorneli. Niežeby neexistovali audioknihy nahovorené takýmto systémom predtým. Práve naopak. No podsúvanie technológie predtým určenej len malej skupine obyvateľstva všetkým užívateľom vyvolalo otázky, či to nie je cesta, ktorou sa treba rýchlo vydať. V tom čase dokonca aj na Slovensku a v Čechách viaceré firmy zvažovali vstup do audioknižného businessu takouto formou.

Kto to vie lepšie

Na rozdiel od živého interpreta sa počítač nemýli. Nepotrebuje oddych, nemá zlé a dobré dni, nezachrípne ani neochorie. Nezáleží na kvalite štúdia, citlivosti mikrofónov, schopnosti zvukára. Všetko si koriguje sám podľa vopred daného systému.

Audiokniha, ktorej produkcia trvá niekoľko týždňov takto môže vzniknúť za rádovo pár hodín. V kvalite od začiatku po koniec rovnakej. V rovnakom štýle…

A tu začína TTS narážať na prvý vážny problém.

Bez ohľadu na kvalitu algoritmu, schopnosti imitovať dýchanie, chrapčanie alebo intonovať rôzne špecifické súvetia, TTS nie je človek.

Rozdiel medzi počítačovo nahovoreným textom a človekom, ak sa bavíme o profesionálnom interpretovi, je najviac počuť práve v štýle.

Počítač sa dokáže naučiť mnoho. Bezhranične mnoho. No nikdy sa nenaučí, minimálne nie bez rozvinutej umelej inteligencie, rozumieť významu skrytom nielen v slovách, ale aj v pocitoch a sprievodných situáciách.

Pre počítač je veta “Sedel na stoličke s dvoma nohami a len s premáhaním držal stabilitu aby nespadol a nevyprovokoval ďalší trest.” nepochopiteľnou z pohľadu obrazného významu.

>> Skúsiť TTS interpretáciu môžete napríklad tu >>

Interpret, aj keď v podobnej situácii nikdy nebol chápe, že sedieť na stoličke s dvoma nohami nie je nič jednoduché ani príjemné a že trest naozaj bude bolieť.

Toto pochopenie tvorí prvý významný rozdiel medzi ľudskou a “počítačovou” interpretáciou.

Druhým rozdielom je dopad ľudského premýšľania. Ak veta “Prešiel pohľadom po predmetoch a niečo ho zastavilo v ďalšom pohybe.” znamená pre počítač len vetu s kontextovým mienením, pre človeka je to veta, kde pozastavenie tempa a zmena intonácie, ako keď nahlas premýšľame o niečom, je úplne prirodzená.

Ak sa nám aj takéto rozdiely nezdajú na prvé zamyslenie dôležité, z pohľadu akceptovateľnosti v dlhodobom horizonte, napríklad 11 hodinovej audioknihy, je to rozdiel, ktorý sa stane veľmi rýchlo vnímaný. A pokiaľ sa niečo v našom premýšľaní zrazu nezmení, takýto štýl nám svojim umelým formátom nedá to, čo od živého interpreta prirodzene očakávame a aj dostávame.

Bodka

TTS ako systém má jednoznačne šancu vstúpiť do audioknižného trhu. Nielen pre vyššie uvedené skupinu ľudí s problémami, ale pre všetkých.

Sú texty či situácie, kde nám nezáleží až tak na forme ako na obsahu. Pre tieto tituly a pre takýchto užívateľov prinesie, lepšie povedané prináša, TTS šancu počúvať ďaleko viac. A v konečnom dôsledku ďaleko lacnejšie.

Avšak, ak Whispersync a podobné systémy spôsobili zdvihnuté obočia na tvárach mnohých ľudí, je čas ich zasa spustiť. Do doby, kedy bude TTS previazané s veľmi výkonnou umelou inteligenciou bude hromadné použitie automatizovaného čítania len sci-fi budúcnosti.

Keďže ale vieme, že aj Verne bol považovaný za blázna v čase svojej tvorby, bolo by chybou nemyslieť si, že jedného dňa sa tak nestane. Rozhodne to ale nebude tak skoro. Dovtedy si s kľudom môžme užívať naše nedokonalé, o to však ľudskejšie podané nahovorené príbehy.


Čo si o tom myslíte vy? Chceli by ste počúvať audioknihy nahovorené počítačom aj za cenu monotónnosti ak by obstarávacia cena bola nižšia? Aké žánre si viete predstaviť ako vhodné pre TTS? Používate Whispersync či podobný systém už teraz? Podeľte sa s nami o svoje skúsenosti. Radi sa o nich dozvieme.

Sdílej článek

2 Comments

  1. Radoslav
    12. července 2017 @ 12:08

    Počítačem namluvenou knihu jsem vydržel poslouchat asi 3 minuty, chybějící citové zabarvení a monotónost byly ubíjející, rovněž výslovnost cizojzyčných slov byla vlastně foneticky česká.
    Podle mne by mohly být pro použití TTS vhodné naučné texty (technické, ekonomické ap.)

    Reply

  2. Maroš Kolčák
    3. října 2017 @ 16:29

    Súhlasím že knihy čítané sú kvalitnejšie ako nahovorené TTS ale… A to je zásadné „ale“ nikdy sa nestretnete s tým že budete môcť kúpiť čítaný titul práve taký ako chcete. Jednoducho pre vydavateľstvo (akékoľvek) to nebude rentabilné.
    Ja osobne som s TTS počúval už najmenej 40 titulov (väčšinou sci-fi) ktoré v čítanej forme určite nezoženiete. A boli by ste veľmi prekvapený ako kvalitne to znie. Ja používam TTS (SpeechTech TTS) v Android telefóne pri práci a program je zadarmo. Kupuje sa hlas ( muž , žena) za 1.75 €, čo každý uzná nie je veľa.

    Reply

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Nejnovější články

Audioknihy

Audioknižní experiment: vybrali jsme nejlepší audioknihy z oblíbených žánrů

Audioknižní experti z Audiolibrixu dostali za úkol vybrat ze svého oblíbeného žánru jednu jedinou audioknihu, kterou by doporučili odvážnému jednci ochotnému probádat zatím neznámý žánr. ...
Pokračuj >
Velký audioknižní průzkum 2023 a soutěž o 22 audioknih Audioknihy

Velký audioknižní průzkum 2023

Informace o akci Velký audioknižní průzkum 2023 a soutěž o 22 audioknih, která probíhá od října do konce roku 2023.
Pokračuj >
Umělá inteligence Technologie

Umělá inteligence: Už jste se s ní setkali?

Umělá inteligence, ChatGPT, AI. Pojmy, které na nás skáčou ze všech stran, moc jim nerozumíme, ale podle všeho je to něco skvělého a zároveň děsivého. ...
Pokračuj >