Magyar

Beszédszintézis

Beszédszintézis

a Wikipédiából, a szabad enciklopédiából
Ugrás a navigációhoz Ugrás a kereséshez
Sema Homer Dudley „Vocoder” (1940) című művéhez

A beszédszintézis az emberi beszédhang mesterséges generálása . A text-to-speech rendszer ( TTS ) (vagy automatikus olvasó ) a folyamatos szöveget akusztikus beszédkimenetté alakítja .

A hangjelek generálására elvileg két megközelítés különböztethető meg. Egyrészt az úgynevezett jelmodellezés segítségével hangfelvételeket ( mintákat ) lehet elérni. Másrészt a jel teljes egészében a számítógépben generálható úgynevezett fiziológiai (artikulációs) modellezéssel. Míg az első rendszerek formáns szintézisre épültek, addig a jelenleg iparilag használt rendszerek főként jelmodellezésen alapulnak.

A beszédszintézis sajátos problémája a természetes beszéddallam ( prozódia ) létrehozása.

sztori

Wolfgang von Kempelen "beszélőgépének" másolata (2009)
Hermann von Helmholtz tervének másolata (1865)
A „Voder” bemutatója 1939

Jóval az elektronikus jelfeldolgozás feltalálása előtt a tudósok olyan gépeket próbáltak építeni, amelyek képesek emberi beszédet előállítani. Aurillac Gerbertnek (1003) egy bronz „Beszélő fejet” tulajdonítottak, akiről a hírek szerint igent és nemet is tudott mondani. Albertus Magnus (1198-1280) és Roger Bacon (1214-1294) apparátusai valószínűleg inkább a legendák körébe tartoznak .

1779-ben a Koppenhágában dolgozó német tudós , Christian Kratzenstein a Szentpétervári Akadémia versenyére egy "beszédorgonát" épített, amely öt hosszú magánhangzót (a, e, i, o és u) tudott szintetizálni a szabad hangok segítségével. vibráló nyelvsípok rezonátorokkal az emberi hangtraktus mintájára . Wolfgang von Kempelen már 1760 körül kifejlesztett egy beszélőgépet, amelyet 1791-ben "Az emberi nyelv mechanizmusa a beszélőgép leírásával együtt" című kiadványában mutatott be. Kratzensteinhez hasonlóan ez a szintézis egy fújtatón alapult, mint a tüdő megfelelője, de a tényleges gerjesztés sokkal inkább anatómiailag ment végbe egyetlen, verő nyelvi síp által. Ez lehetővé tette néhány magánhangzót és zárszót. Ezen túlmenően, egyes frikatívumok különböző mechanizmusokkal ábrázolhatók. A hangszálakhoz bőrcsövet erősítettek, amely egy kézzel deformálható volt, és így a hangpálya változó geometriáját és rezonancia viselkedését imitálta. Von Kempelen írta:

"három hét leforgása alatt csodálatos játéktudást szerezni, különösen, ha az ember latinra, franciára vagy olaszra vált, mert a német sokkal nehezebb [a gyakori mássalhangzó-csoportok miatt] ."

Charles Wheatstone 1837-ben épített egy beszélőgépet ennek a tervnek a alapján , másolata a Deutsches Museumban található . 1857-ben Joseph Faber megépítette az Euphonia -t , amely szintén ezt az elvet követi.

A 19. század végén az érdeklődés az emberi beszédszervek replikálásától (genetikai beszédszintézis) az akusztikus tér szimulációja felé (gennematikus beszédszintézis) fejlődött. Például Hermann von Helmholtz volt az első, aki hangvillák segítségével szintetizált magánhangzókat, amelyeket a vokális traktus rezonanciafrekvenciáira hangoltak meghatározott magánhangzóhelyeken. Ezeket a rezonanciafrekvenciákat formánsoknak nevezzük . A formánsok kombinálásával végzett beszédszintézis az 1990-es évek közepéig technikailag általános volt.

Az 1930 -as években a Bell Labs kifejlesztette a vokódert , egy billentyűzet-vezérelt elektronikus beszédszintetizátort, amelyről azt mondták, hogy egyértelműen érthető. Homer Dudley ezt a gépet az 1939-es világkiállításon bemutatott Voder -vé fejlesztette . A Voder elektromos oszcillátorokat használt a formáns frekvenciák generálására.

Az első számítógép-alapú beszédszintézis rendszereket az 1950-es évek végén fejlesztették ki, az első teljes szövegfelolvasó rendszert pedig 1968-ban fejezték be. A fizikus , John Larry Kelly, Jr. 1961-ben a Bell Labsnál fejlesztette ki a beszédszintézist egy IBM 704 segítségével, és elénekelte a Daisy Bell című dalt. Stanley Kubrick rendezőt annyira lenyűgözte, hogy beépítette a 2001: Űrodüsszeia című filmbe .

Jelenlegi

Míg a korai elektronikus beszédszintézis még nagyon robotikusan hangzott és néha nehezen érthető volt, addig az ezredforduló óta olyan minőséget ért el, hogy néha nehéz megkülönböztetni az emberi beszélőktől. Ez nagyrészt annak köszönhető, hogy a technológia eltávolodott a beszédjel tényleges szintetizálásától, és a rögzített beszédszegmensek optimális összefűzésére összpontosított. [1] [2] [3]

szintézis

A beszédszintézis megköveteli az emberi nyelv elemzését, mind a fonémák , mind a prozódia szempontjából, mivel egy mondatnak a mondat dallamán keresztül is eltérő jelentése lehet.

Ami magát a szintézis folyamatot illeti, különböző módszerek léteznek. Minden metódusban közös, hogy hozzáférnek egy adatbázishoz, amelyben a nyelvi szegmensekre vonatkozó jellemző információkat tárolnak. A leltár elemei a kívánt kijelentéshez kapcsolódnak. A beszédszintézis rendszereket az adatbázis leltár és különösen a linkelés módja alapján lehet osztályozni. Minél nagyobb az adatbázis, annál könnyebb a jelszintézis, mivel már olyan elemeket tartalmaz, amelyek közelebb állnak a kívánt kijelentéshez, és kevesebb jelfeldolgozásra van szükség. Ugyanezen okból a természetesebb hangzású szintézis általában sikeres nagy adatbázissal.

A szintézis nehézsége a leltárelemek összekapcsolásában rejlik. Mivel ezek különböző megnyilatkozásokból származnak, hangerőben, alapfrekvenciában és a formánsok helyzetében is különböznek. Az adatbázis előfeldolgozása során vagy a leltárelemek kombinálásakor ezeket a különbségeket a lehető legjobban kompenzálni kell (normalizálás) , hogy ne rontsák a szintézis minőségét.

Egység kiválasztása

Az egységválaszték biztosítja a legjobb minőséget, különösen korlátozott tartományban . A szintézis egy nagy beszédadatbázist használ, amelyben minden rögzített megnyilatkozás a következő egységek egy részére vagy mindegyikére van szegmentálva:

Ezek a szegmensek különféle akusztikus és fonetikai tulajdonságokat, például hangmagasságot, időtartamot vagy szomszédokat tartalmazó térképpel együtt tárolják.

A szintézishez speciális keresési algoritmusokat , súlyozott döntési fákat használnak a lehető legnagyobb szegmensek sorozatának meghatározására, amelyek e tulajdonságok tekintetében a lehető legközelebb állnak a szintetizálandó megnyilatkozáshoz. Mivel ez a sorozat kis jelfeldolgozással vagy egyáltalán nem kerül kiadásra, a beszélt nyelv természetessége mindaddig megmarad, amíg kevés összefűzési pontra van szükség.

difonszintézis

A 21. század elején végzett kísérletek azt mutatták, hogy a fonetikai átmenetek helyes reprodukálása elengedhetetlen a beszédszintézis érthetőségéhez. Az összes fonetikai átmenet tárolására egy körülbelül 2500 bejegyzést tartalmazó adatbázist használnak. A stacionárius rész időtartományát, a fonéma közepét tárolja a következő fonéma álló részéig. A szintézishez az információkat ennek megfelelően állítják össze ( összefűzve ).

Kiterjedtebb adatbázisok használatával több koartikulációs hatás is figyelembe vehető, amely nagyban hozzájárul a beszéd természetességéhez. Példa erre a Hadifix , amely félszótagokat , difont és e utótagot tartalmaz .

jelgenerálás

A jelgenerálás a kívánt szegmenseket reprodukálja az adatbázisból a megadott alapfrekvencia görbével. Az alapfrekvencia-görbe ezen karakterisztikáját többféleképpen meg lehet valósítani, amiben a következő módszerek különböznek.

Forrásszűrő modell

A forrás-szűrő elválasztást alkalmazó szintéziseknél periodikus hullámformájú jelforrást használnak. Periódushosszuk úgy van beállítva, hogy megfeleljen a szintetizálandó megnyilatkozás alapfrekvenciájának. A fonéma típusától függően további zajt adnak ehhez a gerjesztéshez. A végső szűrés lenyomja a hangjellemző spektrumokat. Ennek a módszercsoportnak az egyik előnye a forrás egyszerű alapfrekvencia-szabályozása. Hátránya az adatbázisban tárolt szűrőparaméterekből adódik, amelyeket beszédmintákból nehéz meghatározni. A szűrő típusától vagy a beszéd mögöttes nézőpontjától függően a következő módszereket különböztetjük meg:

formáns szintézis

A formánsszintézis azon a megfigyelésen alapul, hogy a magánhangzók megkülönböztetéséhez elegendő az első két formáns helyes reprodukálása . Minden formánst egy sávszűrő , egy másodrendű polarizáló szűrő szimulál, amelynek középfrekvenciája és minősége szabályozható . A formáns szintézis viszonylag egyszerűen megvalósítható analóg elektronikus áramkörök segítségével.

akusztikus modell

Az akusztikus modell egy megfelelő szűrőn keresztül reprodukálja a hangcsatorna általános rezonancia tulajdonságait . Leegyszerűsítve a hangpályát gyakran változó keresztmetszetű csőnek tekintik, a transzverzális módokat figyelmen kívül hagyva, mivel a hangcsatorna oldalirányú kiterjedése kicsi. A keresztmetszeti változásokat egyenlő távolságú keresztmetszeti ugrásokkal tovább közelítjük. A leggyakrabban választott szűrőtípus a keresztkötésű láncszűrő , ahol közvetlen kapcsolat van a keresztmetszet és a szűrő együtthatója között. [4]

Ezek a szűrők szorosan kapcsolódnak a lineáris prediktív kódoláshoz (LPC), amelyet beszédszintézisre is használnak. Az LPC a teljes rezonanciatulajdonságot is figyelembe veszi, de nincs közvetlen kapcsolat a szűrőtényezők és a hangpálya keresztmetszeti alakja között.

Artikulációs szintézis

Az akusztikus modellel ellentétben az artikulációs szintézis kapcsolatot hoz létre az artikulátorok helyzete és a hangpálya ebből eredő keresztmetszeti lefutása között. Itt az idő-diszkrét keresztlánc-szűrők mellett az időfolytonos Horn-egyenlet megoldásait alkalmazzák a rezonanciakarakterisztika szimulálására, amelyből az időjelet Fourier-transzformációval kapjuk .

átfedés add

Pitch Synchronous Overlap Add, röviden PSOLA, egy szintézis módszer, amelyben az adatbázis a beszédjel felvételeit tartalmazza. Ha a jelek periodikusak, akkor tájékoztatást kapnak az alapfrekvenciáról (hangmagasságról), és minden periódus kezdete meg van jelölve. A szintézis során ezeket az időszakokat egy adott környezettel egy ablakfüggvény segítségével leképezzükkivágjuk és a megfelelő ponton hozzáadjuk a szintetizálandó jelhez: Attól függően, hogy a kívánt alapfrekvencia nagyobb vagy alacsonyabb, mint az adatbázis-bejegyzésé, az eredetinél nagyobb vagy kevésbé sűrűn kerülnek össze. A pontok kihagyhatók vagy kétszer adhatók ki a hang időtartamának beállításához. Ez a módszer TD-PSOLA vagy PSOLA-TD (TM) néven is ismert, ahol a TD a Time Domain rövidítése, és hangsúlyozza, hogy a módszerek az időtartományban működnek.

Egy további fejlesztés a Multi Band Resynthesis OverLap Add módszer, röviden MBROLA . Itt az adatbázis szegmensei egységes alapfrekvenciára előfeldolgozásra kerülnek, és a harmonikusok fázishelyzete normalizálódik. Ennek eredményeként az egyik szegmensről a másikra történő átmenet szintetizálása során kevesebb észlelési zavar és jobb hangminőség érhető el.

Ezek a szintézis módszerek a granuláris szintézishez kapcsolódnak , amelyet a hanggenerálásban és az elidegenítésben használnak az elektronikus zenei produkcióban.

Paraméteres beszédszintézis rejtett Markov-modellekből (HMM) és/vagy sztochasztikus Markov-gráfokból (SMG)

A paraméteres beszédszintézis sztochasztikus modelleken alapuló módszerek csoportja. Ezek a modellek vagy rejtett Markov-modellek (HMM) , sztochasztikus Markov-grafikonok (SMG), vagy újabban a kettő kombinációja. Az alapelv az, hogy a szöveg előfeldolgozása során kapott szimbolikus fonémasorozatok statisztikai modellezésen esnek át úgy, hogy először szegmensekre bontják, majd ezekhez a szegmensekhez rendelnek egy-egy adott modellt egy meglévő adatbázisból. E modellek mindegyikét számos paraméter határozza megleírták és végül a többi modellhez kapcsolták. A mesterséges beszédjel feldolgozása, amely az említett paramétereken alapul, ezután fejezi be a szintézist. Rugalmasabb, sztochasztikus Markov-gráfok alkalmazása esetén egy ilyen modell akár optimalizálható is olyan mértékben, hogy egy bizonyos alapvető természetesség előre és a természetes nyelv példáinak megadásával tanítható. Az ilyen típusú statisztikai módszerek a beszédfelismerés ellentétes területéről származnak, és egy bizonyos kimondott szósorozat valószínűsége és a várható hozzávetőleges beszédsebesség közötti összefüggésre vonatkozó ismeretek motiválják, vagy annak prozódiája. [5] [6] [7]

A szövegfelolvasó szoftver lehetséges felhasználási lehetőségei

A beszédszintézis szoftver használatának nem kell öncélúnak lennie. Látássérültek – pl. B. szürkehályog vagy korral összefüggő makuladegeneráció – használjon TTS szoftvermegoldásokat, hogy a szövegeket közvetlenül a képernyőn olvassák fel. A vakok képernyőolvasó szoftverrel kezelhetik a számítógépet, tájékozódhatnak a működési elemekről és a szöveges tartalmakról. Az oktatók beszédszintézist is alkalmaznak az előadások rögzítésére. A szerzők a TTS szoftvert is használják a saját maguk által írt szövegek hibáinak és érthetőségének ellenőrzésére.

Egy másik alkalmazási terület a szoftver formájában, amely lehetővé teszi MP3 fájlok létrehozását . Ez lehetővé teszi a beszédszintézis szoftver használatát egyszerű podcastok vagy audioblogok létrehozásához . A tapasztalat azt mutatja, hogy a podcastok vagy audioblogok készítése nagyon időigényes lehet.

Amikor amerikai szoftverekkel dolgozik, meg kell jegyezni, hogy a meglévő hangok eltérő minőségűek. Az angol hangok jobb minőségűek, mint a németek. Ennek egyik oka a nagyobb német nyelvű adatbázisok korlátozott elérhetősége, amelyekre egy mesterséges modell képzésének alapjaként van szükség. A német nyelvű Thorsten projekt (hangja)ezt a hiányt próbálja pótolni. A szövegek 1:1 arányú másolata TTS szoftverben nem ajánlható, utófeldolgozás mindenképpen szükséges. Nem csak a rövidítések és számok cseréjéről van szó az írott szövegben, hanem az írásjelek beszúrása is – még ha nyelvtanilag nem is helyes – segíthet a mondattempó befolyásolásában. Az anglicizmusokkal ellátott német "fordítások" általában leküzdhetetlen problémát jelentenek a beszédszintézis számára.

Gyakori alkalmazások a telefonos és navigációs rendszerekben a bejelentések, a közlekedési eszközökben az automatikus megállás bejelentések.

beszédszintézis szoftver

Amiga SoftVoice beszédszintézis
  • AnalogX SayIt
  • Aristech
  • Audiodizer
  • Balabolka (ingyenes, 26 nyelv, SAPI4 és SAPI5 )
  • BOSS, amelyet a Bonni Egyetem Kommunikációs Tudományok Intézetében fejlesztettek ki
  • Böngészés szöveg szerintHELP
  • Cepstralis szöveg beszédre
  • CereProc
  • Coqui AI [8]
  • DeskBot
  • espeak (nyílt forráskódú, sok nyelv, SAPI5)
  • fesztivál
  • Festvox
  • FreeTTS (nyílt forráskódú)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA szövegről beszédre
  • Linguatec Voice Reader 15
  • Logox klip olvasó
  • Loquendo TTS
  • MacinTalk és narrator.device a SoftVoice-tól
  • MARY Text-To-Speech, amelyet a DFKI Language Technology Lab fejlesztett ki
  • MBROLA [9] különböző hangok (gyártott fonémák) különböző nyelveken, amelyeket olyan beszédszintézis szoftverek használhatnak, mint az eSpeak vagy a Festival. [10]
  • Modul [11] Hangkonverziós szoftver, Generative Adversarial Networks [12]
  • Mozilla TTS [13]
  • NaturalReader a NaturalSofttól
  • OnScreenVoices, Tom Weber szoftver
  • ReadSpeaker: Webhelyek olvasása és podcast
  • Realspeak by Nuance (korábban ScanSoft), most Kobaspeech 3
  • SAM a Don't Ask szoftvertől [14]
  • SpeechConcept
  • beszédgép
  • libttspico-utils az SVOX-tól (parancssoros beszédszintézis német, angol (GB és USA), spanyol, francia és olasz nyelven) [15]
  • szintézis 2
  • szintetikus 3
  • SYNVO
  • Tacotron (Google) [16]
  • Hangos szöveg MP3
  • Toshiba ToSpeak
  • TTS robot
  • virsyn CANTOR magánhangzó szintézis
  • Virtuális hang

beszédszintézis hardver

  • Votrax
    • SC-01A (analóg formáns)
    • SC-02 / SSI-263 / "Arctic 263"
  • Általános hangszeres beszédprocesszor
    • SP0250
    • SP0256-AL2 "Szónok" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000 [17]
  • National Semiconductor DT1050 digitális mag (Mozer)
  • Silicon Systems SSI 263 (analóg formáns)
  • Texas Instruments
  • Oki Semiconductor
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS Voice Synthesizing LSI

Lásd még

irodalom

  • Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: A szövegtől a beszélt nyelvig. In: Henning Lobin , Lothar Lemnitzer (szerk.): Text technology. perspektívák és alkalmazások. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , 295–325.
  • Jessica Riskin: Eighteenth-Century Wetware. In: Reprezentációk. Vol. 83, No. 1, 2003, ISSN  0734-6018 , pp. 97–125, doi : 10.1525/rep.2003.83.1.97 .
  • James L. Flanagan: Beszédelemzés, szintézis és észlelés (= kommunikáció és kibernetika egyéni reprezentációkban. 3. kötet). 2. kiadás. Springer, Berlin és munkatársai, 1972, ISBN 3-540-05561-4 . 1. kiadás 1965, 3. kiadás 2008 [18]
  • Ville Pulkki, Matti Karjalainen : Kommunikációs akusztika: Bevezetés a beszédbe, a hangzásba és a pszichoakusztikába. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .

internetes linkek

Wikiszótár: Beszédszintézis  - jelentésmagyarázatok, szó eredet, szinonimák, fordítások
Commons : Speech Synthesis  – Képek, videók és hangfájlok gyűjteménye

sztori

rendszerek

webes felületek

lábjegyzetek

  1. Dennis Klatt A beszédszintézis története ( Mementó 2006. július 4-ről az Internet Archívumban )
  2. Sami Lemmetty: A beszédszintézis története és fejlődése. In: Review of Speech Synthesis Technology. HELSINKI MŰSZAKI EGYETEM, 1999. június 1., megtekintés: 2019. március 14. (angol).
  3. Arne Hoxbergen: A beszédszintézis története néhány kiválasztott példával (PDF; 490 kB). Berlin 2005.
  4. Karl Schnell: A beszédtraktus csöves modelljei. Frankfurt 2003.
  5. DE10040991C1 szabadalom : A beszéd parametrikus szintézisére szolgáló eljárás. Benyújtva: 2000. augusztus 18., közzététel: 2001. szeptember 27., Kérelmező: Technische Universität Dresden, Feltalálók: Matthias Eichner, Matthias Wolf.
  6. ↑ Az oldal már nem elérhető , keressen a webarchívumban: Diplomarbeit_Breitenbuecher@1@2Vorlage:Toter Link/www.ims.uni-stuttgart.de
  7. Archív másolat ( 2014 . július 21 - i emlékirat az internetes archívumban )
  8. Coqui AI kezdőlap - https://coqui.ai
  9. Üdvözöljük az MBROLA projektben. In: GitHub . UMONS Institute for Creative Technologies, 2022. január 30. Letöltve: 2022. január 30 .
  10. Hangkimenet. In: Wiki.ubuntuusers.de. Letöltve: 2022. január 30 .
  11. Modulálás: feloldja a hangját. Letöltve: 2019. március 14 .
  12. Technológiai áttekintés: Beszélj úgy, mint Barack Obama. 2019. március 14., letöltve: 2019. március 14 .
  13. mozilla/TTS. Mozilla 2021. február 7., letöltve: 2021. február 7 .
  14. https://simulationcorner.net/index.php?page=sam
  15. libttspico-utils - Csomag leírása a Debiannál
  16. Sebastian Grüner: Tacotron 2: A Google beszédszintézise szinte emberi minőséget ér el – Golem.de. In: golem.de. 2017. december 21., letöltve: 2019. március 14 .
  17. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  18. Tartalomjegyzék (pdf)