A beszédszintézis az emberi beszédhang mesterséges generálása . A text-to-speech rendszer ( TTS ) (vagy automatikus olvasó ) a folyamatos szöveget akusztikus beszédkimenetté alakítja .
A hangjelek generálására elvileg két megközelítés különböztethető meg. Egyrészt az úgynevezett jelmodellezés segítségével hangfelvételeket ( mintákat ) lehet elérni. Másrészt a jel teljes egészében a számítógépben generálható úgynevezett fiziológiai (artikulációs) modellezéssel. Míg az első rendszerek formáns szintézisre épültek, addig a jelenleg iparilag használt rendszerek főként jelmodellezésen alapulnak.
A beszédszintézis sajátos problémája a természetes beszéddallam ( prozódia ) létrehozása.
Jóval az elektronikus jelfeldolgozás feltalálása előtt a tudósok olyan gépeket próbáltak építeni, amelyek képesek emberi beszédet előállítani. Aurillac Gerbertnek (1003) egy bronz „Beszélő fejet” tulajdonítottak, akiről a hírek szerint igent és nemet is tudott mondani. Albertus Magnus (1198-1280) és Roger Bacon (1214-1294) apparátusai valószínűleg inkább a legendák körébe tartoznak .
1779-ben a Koppenhágában dolgozó német tudós , Christian Kratzenstein a Szentpétervári Akadémia versenyére egy "beszédorgonát" épített, amely öt hosszú magánhangzót (a, e, i, o és u) tudott szintetizálni a szabad hangok segítségével. vibráló nyelvsípok rezonátorokkal az emberi hangtraktus mintájára . Wolfgang von Kempelen már 1760 körül kifejlesztett egy beszélőgépet, amelyet 1791-ben "Az emberi nyelv mechanizmusa a beszélőgép leírásával együtt" című kiadványában mutatott be. Kratzensteinhez hasonlóan ez a szintézis egy fújtatón alapult, mint a tüdő megfelelője, de a tényleges gerjesztés sokkal inkább anatómiailag ment végbe egyetlen, verő nyelvi síp által. Ez lehetővé tette néhány magánhangzót és zárszót. Ezen túlmenően, egyes frikatívumok különböző mechanizmusokkal ábrázolhatók. A hangszálakhoz bőrcsövet erősítettek, amely egy kézzel deformálható volt, és így a hangpálya változó geometriáját és rezonancia viselkedését imitálta. Von Kempelen írta:
"három hét leforgása alatt csodálatos játéktudást szerezni, különösen, ha az ember latinra, franciára vagy olaszra vált, mert a német sokkal nehezebb [a gyakori mássalhangzó-csoportok miatt] ."
Charles Wheatstone 1837-ben épített egy beszélőgépet ennek a tervnek a alapján , másolata a Deutsches Museumban található . 1857-ben Joseph Faber megépítette az Euphonia -t , amely szintén ezt az elvet követi.
A 19. század végén az érdeklődés az emberi beszédszervek replikálásától (genetikai beszédszintézis) az akusztikus tér szimulációja felé (gennematikus beszédszintézis) fejlődött. Például Hermann von Helmholtz volt az első, aki hangvillák segítségével szintetizált magánhangzókat, amelyeket a vokális traktus rezonanciafrekvenciáira hangoltak meghatározott magánhangzóhelyeken. Ezeket a rezonanciafrekvenciákat formánsoknak nevezzük . A formánsok kombinálásával végzett beszédszintézis az 1990-es évek közepéig technikailag általános volt.
Az 1930 -as években a Bell Labs kifejlesztette a vokódert , egy billentyűzet-vezérelt elektronikus beszédszintetizátort, amelyről azt mondták, hogy egyértelműen érthető. Homer Dudley ezt a gépet az 1939-es világkiállításon bemutatott Voder -vé fejlesztette . A Voder elektromos oszcillátorokat használt a formáns frekvenciák generálására.
Az első számítógép-alapú beszédszintézis rendszereket az 1950-es évek végén fejlesztették ki, az első teljes szövegfelolvasó rendszert pedig 1968-ban fejezték be. A fizikus , John Larry Kelly, Jr. 1961-ben a Bell Labsnál fejlesztette ki a beszédszintézist egy IBM 704 segítségével, és elénekelte a Daisy Bell című dalt. Stanley Kubrick rendezőt annyira lenyűgözte, hogy beépítette a 2001: Űrodüsszeia című filmbe .
Míg a korai elektronikus beszédszintézis még nagyon robotikusan hangzott és néha nehezen érthető volt, addig az ezredforduló óta olyan minőséget ért el, hogy néha nehéz megkülönböztetni az emberi beszélőktől. Ez nagyrészt annak köszönhető, hogy a technológia eltávolodott a beszédjel tényleges szintetizálásától, és a rögzített beszédszegmensek optimális összefűzésére összpontosított. [1] [2] [3]
A beszédszintézis megköveteli az emberi nyelv elemzését, mind a fonémák , mind a prozódia szempontjából, mivel egy mondatnak a mondat dallamán keresztül is eltérő jelentése lehet.
Ami magát a szintézis folyamatot illeti, különböző módszerek léteznek. Minden metódusban közös, hogy hozzáférnek egy adatbázishoz, amelyben a nyelvi szegmensekre vonatkozó jellemző információkat tárolnak. A leltár elemei a kívánt kijelentéshez kapcsolódnak. A beszédszintézis rendszereket az adatbázis leltár és különösen a linkelés módja alapján lehet osztályozni. Minél nagyobb az adatbázis, annál könnyebb a jelszintézis, mivel már olyan elemeket tartalmaz, amelyek közelebb állnak a kívánt kijelentéshez, és kevesebb jelfeldolgozásra van szükség. Ugyanezen okból a természetesebb hangzású szintézis általában sikeres nagy adatbázissal.
A szintézis nehézsége a leltárelemek összekapcsolásában rejlik. Mivel ezek különböző megnyilatkozásokból származnak, hangerőben, alapfrekvenciában és a formánsok helyzetében is különböznek. Az adatbázis előfeldolgozása során vagy a leltárelemek kombinálásakor ezeket a különbségeket a lehető legjobban kompenzálni kell (normalizálás) , hogy ne rontsák a szintézis minőségét.
Az egységválaszték biztosítja a legjobb minőséget, különösen korlátozott tartományban . A szintézis egy nagy beszédadatbázist használ, amelyben minden rögzített megnyilatkozás a következő egységek egy részére vagy mindegyikére van szegmentálva:
Ezek a szegmensek különféle akusztikus és fonetikai tulajdonságokat, például hangmagasságot, időtartamot vagy szomszédokat tartalmazó térképpel együtt tárolják.
A szintézishez speciális keresési algoritmusokat , súlyozott döntési fákat használnak a lehető legnagyobb szegmensek sorozatának meghatározására, amelyek e tulajdonságok tekintetében a lehető legközelebb állnak a szintetizálandó megnyilatkozáshoz. Mivel ez a sorozat kis jelfeldolgozással vagy egyáltalán nem kerül kiadásra, a beszélt nyelv természetessége mindaddig megmarad, amíg kevés összefűzési pontra van szükség.
A 21. század elején végzett kísérletek azt mutatták, hogy a fonetikai átmenetek helyes reprodukálása elengedhetetlen a beszédszintézis érthetőségéhez. Az összes fonetikai átmenet tárolására egy körülbelül 2500 bejegyzést tartalmazó adatbázist használnak. A stacionárius rész időtartományát, a fonéma közepét tárolja a következő fonéma álló részéig. A szintézishez az információkat ennek megfelelően állítják össze ( összefűzve ).
Kiterjedtebb adatbázisok használatával több koartikulációs hatás is figyelembe vehető, amely nagyban hozzájárul a beszéd természetességéhez. Példa erre a Hadifix , amely félszótagokat , difont és e utótagot tartalmaz .
A jelgenerálás a kívánt szegmenseket reprodukálja az adatbázisból a megadott alapfrekvencia görbével. Az alapfrekvencia-görbe ezen karakterisztikáját többféleképpen meg lehet valósítani, amiben a következő módszerek különböznek.
A forrás-szűrő elválasztást alkalmazó szintéziseknél periodikus hullámformájú jelforrást használnak. Periódushosszuk úgy van beállítva, hogy megfeleljen a szintetizálandó megnyilatkozás alapfrekvenciájának. A fonéma típusától függően további zajt adnak ehhez a gerjesztéshez. A végső szűrés lenyomja a hangjellemző spektrumokat. Ennek a módszercsoportnak az egyik előnye a forrás egyszerű alapfrekvencia-szabályozása. Hátránya az adatbázisban tárolt szűrőparaméterekből adódik, amelyeket beszédmintákból nehéz meghatározni. A szűrő típusától vagy a beszéd mögöttes nézőpontjától függően a következő módszereket különböztetjük meg:
A formánsszintézis azon a megfigyelésen alapul, hogy a magánhangzók megkülönböztetéséhez elegendő az első két formáns helyes reprodukálása . Minden formánst egy sávszűrő , egy másodrendű polarizáló szűrő szimulál, amelynek középfrekvenciája és minősége szabályozható . A formáns szintézis viszonylag egyszerűen megvalósítható analóg elektronikus áramkörök segítségével.
Az akusztikus modell egy megfelelő szűrőn keresztül reprodukálja a hangcsatorna általános rezonancia tulajdonságait . Leegyszerűsítve a hangpályát gyakran változó keresztmetszetű csőnek tekintik, a transzverzális módokat figyelmen kívül hagyva, mivel a hangcsatorna oldalirányú kiterjedése kicsi. A keresztmetszeti változásokat egyenlő távolságú keresztmetszeti ugrásokkal tovább közelítjük. A leggyakrabban választott szűrőtípus a keresztkötésű láncszűrő , ahol közvetlen kapcsolat van a keresztmetszet és a szűrő együtthatója között. [4]
Ezek a szűrők szorosan kapcsolódnak a lineáris prediktív kódoláshoz (LPC), amelyet beszédszintézisre is használnak. Az LPC a teljes rezonanciatulajdonságot is figyelembe veszi, de nincs közvetlen kapcsolat a szűrőtényezők és a hangpálya keresztmetszeti alakja között.
Az akusztikus modellel ellentétben az artikulációs szintézis kapcsolatot hoz létre az artikulátorok helyzete és a hangpálya ebből eredő keresztmetszeti lefutása között. Itt az idő-diszkrét keresztlánc-szűrők mellett az időfolytonos Horn-egyenlet megoldásait alkalmazzák a rezonanciakarakterisztika szimulálására, amelyből az időjelet Fourier-transzformációval kapjuk .
Pitch Synchronous Overlap Add, röviden PSOLA, egy szintézis módszer, amelyben az adatbázis a beszédjel felvételeit tartalmazza. Ha a jelek periodikusak, akkor tájékoztatást kapnak az alapfrekvenciáról (hangmagasságról), és minden periódus kezdete meg van jelölve. A szintézis során ezeket az időszakokat egy adott környezettel egy ablakfüggvény segítségével leképezzükkivágjuk és a megfelelő ponton hozzáadjuk a szintetizálandó jelhez: Attól függően, hogy a kívánt alapfrekvencia nagyobb vagy alacsonyabb, mint az adatbázis-bejegyzésé, az eredetinél nagyobb vagy kevésbé sűrűn kerülnek össze. A pontok kihagyhatók vagy kétszer adhatók ki a hang időtartamának beállításához. Ez a módszer TD-PSOLA vagy PSOLA-TD (TM) néven is ismert, ahol a TD a Time Domain rövidítése, és hangsúlyozza, hogy a módszerek az időtartományban működnek.
Egy további fejlesztés a Multi Band Resynthesis OverLap Add módszer, röviden MBROLA . Itt az adatbázis szegmensei egységes alapfrekvenciára előfeldolgozásra kerülnek, és a harmonikusok fázishelyzete normalizálódik. Ennek eredményeként az egyik szegmensről a másikra történő átmenet szintetizálása során kevesebb észlelési zavar és jobb hangminőség érhető el.
Ezek a szintézis módszerek a granuláris szintézishez kapcsolódnak , amelyet a hanggenerálásban és az elidegenítésben használnak az elektronikus zenei produkcióban.
A paraméteres beszédszintézis sztochasztikus modelleken alapuló módszerek csoportja. Ezek a modellek vagy rejtett Markov-modellek (HMM) , sztochasztikus Markov-grafikonok (SMG), vagy újabban a kettő kombinációja. Az alapelv az, hogy a szöveg előfeldolgozása során kapott szimbolikus fonémasorozatok statisztikai modellezésen esnek át úgy, hogy először szegmensekre bontják, majd ezekhez a szegmensekhez rendelnek egy-egy adott modellt egy meglévő adatbázisból. E modellek mindegyikét számos paraméter határozza megleírták és végül a többi modellhez kapcsolták. A mesterséges beszédjel feldolgozása, amely az említett paramétereken alapul, ezután fejezi be a szintézist. Rugalmasabb, sztochasztikus Markov-gráfok alkalmazása esetén egy ilyen modell akár optimalizálható is olyan mértékben, hogy egy bizonyos alapvető természetesség előre és a természetes nyelv példáinak megadásával tanítható. Az ilyen típusú statisztikai módszerek a beszédfelismerés ellentétes területéről származnak, és egy bizonyos kimondott szósorozat valószínűsége és a várható hozzávetőleges beszédsebesség közötti összefüggésre vonatkozó ismeretek motiválják, vagy annak prozódiája. [5] [6] [7]
A beszédszintézis szoftver használatának nem kell öncélúnak lennie. Látássérültek – pl. B. szürkehályog vagy korral összefüggő makuladegeneráció – használjon TTS szoftvermegoldásokat, hogy a szövegeket közvetlenül a képernyőn olvassák fel. A vakok képernyőolvasó szoftverrel kezelhetik a számítógépet, tájékozódhatnak a működési elemekről és a szöveges tartalmakról. Az oktatók beszédszintézist is alkalmaznak az előadások rögzítésére. A szerzők a TTS szoftvert is használják a saját maguk által írt szövegek hibáinak és érthetőségének ellenőrzésére.
Egy másik alkalmazási terület a szoftver formájában, amely lehetővé teszi MP3 fájlok létrehozását . Ez lehetővé teszi a beszédszintézis szoftver használatát egyszerű podcastok vagy audioblogok létrehozásához . A tapasztalat azt mutatja, hogy a podcastok vagy audioblogok készítése nagyon időigényes lehet.
Amikor amerikai szoftverekkel dolgozik, meg kell jegyezni, hogy a meglévő hangok eltérő minőségűek. Az angol hangok jobb minőségűek, mint a németek. Ennek egyik oka a nagyobb német nyelvű adatbázisok korlátozott elérhetősége, amelyekre egy mesterséges modell képzésének alapjaként van szükség. A német nyelvű Thorsten projekt (hangja)ezt a hiányt próbálja pótolni. A szövegek 1:1 arányú másolata TTS szoftverben nem ajánlható, utófeldolgozás mindenképpen szükséges. Nem csak a rövidítések és számok cseréjéről van szó az írott szövegben, hanem az írásjelek beszúrása is – még ha nyelvtanilag nem is helyes – segíthet a mondattempó befolyásolásában. Az anglicizmusokkal ellátott német "fordítások" általában leküzdhetetlen problémát jelentenek a beszédszintézis számára.
Gyakori alkalmazások a telefonos és navigációs rendszerekben a bejelentések, a közlekedési eszközökben az automatikus megállás bejelentések.
sztori
rendszerek
webes felületek