Suomi

Puhesynteesi

Puhesynteesi

Wikipediasta, ilmaisesta tietosanakirjasta
Siirry navigointiin Siirry hakuun
Kaavio Homer Dudleyn "Vocoderista" (1940)

Puhesynteesi on ihmisen puheäänen keinotekoinen sukupolvi . Tekstistä puheeksi -järjestelmä ( TTS ) (tai automaattinen lukija ) muuntaa jatkuvan tekstin akustiseksi puhetulokseksi .

Periaatteessa voidaan erottaa kaksi lähestymistapaa äänisignaalien tuottamiseksi. Toisaalta ns. signaalimallinnuksen avulla voidaan päästä käsiksi äänitallenteisiin ( näytteisiin ). Toisaalta signaali voidaan generoida myös kokonaan tietokoneessa ns. fysiologisella (artikulatorisella) mallinnuksella. Ensimmäiset järjestelmät perustuivat formanttisynteesiin , mutta nykyään teollisesti käytetyt järjestelmät perustuvat pääasiassa signaalimallinnukseen.

Erityinen puhesynteesin ongelma on luonnollisen puhemelodian ( prosodian ) luominen.

tarina

Wolfgang von Kempelenin "puhujakoneen" kopio (2009)
Jäljennös Hermann von Helmholtzin (1865) suunnittelusta
"Voderin" esittely 1939

Kauan ennen elektronisen signaalinkäsittelyn keksimistä tutkijat yrittivät rakentaa koneita, jotka voisivat tuottaa ihmispuhetta. Pronssinen "Talking Head" on annettu Gerbert of Aurillacille (1003), jonka kerrottiin pystyvän sanomaan "kyllä" ja "ei". Albertus Magnuksen (1198-1280) ja Roger Baconin ( 1214-1294) laitteet kuuluvat luultavasti enemmän legendojen piiriin .

Vuonna 1779 Kööpenhaminassa työskennellyt saksalainen tiedemies Christian Kratzenstein rakensi Pietarin akatemian kilpailuun "puheurut", jotka pystyivät syntetisoimaan viisi pitkää vokaalia (a, e, i, o ja u) vapaan värisevät kieliputket resonaattoreilla, jotka on mallinnettu ihmisen äänikanavan mukaan . Wolfgang von Kempelen kehitti puhekoneen jo noin 1760, jonka hän esitteli vuoden 1791 julkaisussaan "Ihmisen kielen mekanismi yhdessä puhekoneen kuvauksen kanssa". Kuten Kratzensteinin, tämä synteesi perustui palkeeseen keuhkovastineena, mutta varsinainen viritys tapahtui paljon anatomisemmin yhdellä lyövällä kieliputkella. Tämä teki jotkin vokaalit ja räjähteet mahdollisiksi. Lisäksi jotkin frikatiivit voidaan esittää erilaisilla mekanismeilla. Äänihuuihin kiinnitettiin nahkaputki, jonka muotoa voitiin muuttaa yhdellä kädellä ja joka näin jäljitteli ääniradan muuttuvaa geometriaa ja resonanssikäyttäytymistä. Von Kempelen kirjoitti:

"Hankittavan soittotaidon hankkiminen kolmessa viikossa, varsinkin kun siirrytään latinaksi, ranskaksi tai italiaksi, saksan kielelle on paljon vaikeampaa [usein esiintyvien konsonanttiryhmien vuoksi] ."

Charles Wheatstone rakensi tähän malliin perustuvan puhekoneen vuonna 1837 , kopio löytyy Deutsches Museumista . Vuonna 1857 Joseph Faber rakensi Euphonia , joka myös noudattaa tätä periaatetta.

1800-luvun lopulla kiinnostus kehittyi pois ihmisen puheelinten replikoinnista (geneettinen puhesynteesi) kohti akustisen tilan simulointia (gennemaattinen puhesynteesi). Esimerkiksi Hermann von Helmholtz oli ensimmäinen, joka syntetisoi vokaalit ääniradan resonanssitaajuuksille viritettyjen äänihaarukoiden avulla tietyissä vokaalipaikoissa. Näitä resonanssitaajuuksia kutsutaan formantteiksi . Puhesynteesi formantteja yhdistämällä oli teknisesti valtavirtaa 1990-luvun puoliväliin asti.

1930- luvulla Bell Labs kehitti vokooderin , näppäimistöohjatun elektronisen puhesyntetisaattorin, jonka sanottiin olevan selvästi ymmärrettävä. Homer Dudley paransi tätä konetta vuoden 1939 maailmannäyttelyssä esitellyksi Voderiksi . Voder käytti sähköoskillaattoria muodostamaan formanttitaajuudet.

Ensimmäiset tietokonepohjaiset puhesynteesijärjestelmät kehitettiin 1950-luvun lopulla, ja ensimmäinen täydellinen tekstistä puheeksi -järjestelmä valmistui vuonna 1968. Fyysikko John Larry Kelly Jr kehitti puhesynteesin Bell Labsissa vuonna 1961 käyttämällä IBM 704:ää ja pyysi häntä laulamaan kappaleen Daisy Bell . Ohjaaja Stanley Kubrick teki siitä niin vaikutuksen, että hän sisällytti sen elokuvaan 2001: A Space Odyssey .

Esittää

Vaikka varhainen elektroninen puhesynteesi kuulosti vielä hyvin robotiselta ja joskus vaikeasti ymmärrettävältä, se on saavuttanut vuosituhannen vaihteen jälkeen laadun, jossa sitä on joskus vaikea erottaa ihmispuhujista. Tämä johtuu suurelta osin siitä, että tekniikka on siirtynyt pois puhesignaalin varsinaisesta syntetisoinnista ja keskittymisestä tallennettujen puhesegmenttien optimaaliseen ketjuttamiseen. [1] [2] [3]

synteesi

Puhesynteesi edellyttää ihmisen puheen analysointia foneemien , mutta myös prosodian osalta, koska lauseella voi olla erilaisia ​​merkityksiä vain lausemelodian kautta.

Mitä tulee itse synteesiprosessiin, on olemassa erilaisia ​​menetelmiä. Kaikille menetelmille on yhteistä se, että ne pääsevät tietokantaan, johon on tallennettu kielisegmenttien ominaistiedot. Tämän luettelon kohteet on linkitetty haluttuun ilmaisuun. Puhesynteesijärjestelmät voidaan luokitella tietokannan inventaarion ja erityisesti linkitystavan perusteella. Signaalisynteesi on yleensä sitä helpompaa, mitä suurempi tietokanta on, koska se sisältää jo elementtejä, jotka ovat lähempänä haluttua lausumaa ja vähemmän signaalinkäsittelyä tarvitaan. Samasta syystä luonnollisemmalta kuulostava synteesi onnistuu yleensä suurella tietokannalla.

Synteesin vaikeus piilee inventaarion elementtien yhdistämisessä. Koska nämä tulevat eri ilmaisuista, ne eroavat myös äänenvoimakkuudeltaan, perustaajuudesta ja formanttien sijainnista. Kun tietokantaa esikäsitellään tai kun inventaarioelementtejä yhdistetään, nämä erot tulee mahdollisimman hyvin kompensoida (normalisointi) , jotta synteesin laatu ei heikkene.

Yksikön valinta

Yksikkövalikoima tarjoaa parhaan laadun erityisesti rajoitetulla toimialueella . Synteesi käyttää suurta puhetietokantaa, jossa jokainen tallennettu ilmaisu on segmentoitu joihinkin tai kaikkiin seuraavista yksiköistä:

Nämä segmentit on tallennettu useiden akustisten ja foneettisten ominaisuuksien, kuten äänenkorkeuden, keston tai naapureiden kartan kanssa.

Synteesiä varten käytetään erityisiä hakualgoritmeja , painotettuja päätöspuita , määrittämään sarja mahdollisimman suuria segmenttejä, jotka ovat näiden ominaisuuksien suhteen mahdollisimman lähellä syntetisoitavaa lausumaa. Koska tämä sarja lähetetään vain vähän tai ei ollenkaan signaalinkäsittelyä, puhutun kielen luonnollisuus säilyy niin kauan kuin tarvitaan muutamia ketjutuspisteitä.

difonisynteesi

2000-luvun alussa tehdyt kokeet ovat osoittaneet, että foneettisten siirtymien oikea toisto on olennaista puhesynteesin ymmärrettävyyden kannalta. Kaikkien foneettisten siirtymien tallentamiseen käytetään noin 2500 merkinnän tietokantaa. Se tallentaa kiinteän osan aika-alueen, foneemin keskellä olevan foneemin, seuraavan foneemin kiinteään osaan asti. Synteesiä varten tiedot kootaan vastaavasti ( ketjutettu ).

Enemmän yhteisartikulaatiovaikutuksia , jotka lisäävät paljon puheen luonnollisuutta, voidaan ottaa huomioon käyttämällä laajempia tietokantoja. Esimerkki tästä on Hadifix , joka sisältää puolitavut , difonin ja jälkiliitteen e .

signaalin generointi

Signaalin generointi toistaa halutut segmentit tietokannasta määritellyllä perustaajuuskäyrällä. Tämä perustaajuuskäyrän ominaisuus voidaan tehdä eri tavoilla, joissa seuraavat menetelmät eroavat toisistaan.

Lähdesuodattimen malli

Synteesissä, joissa käytetään lähde-suodatinerotusta, käytetään signaalilähdettä, jolla on jaksollinen aaltomuoto. Niiden jakson pituus asetetaan vastaamaan syntetisoitavan lausunnon perustaajuutta. Foneemityypistä riippuen tähän herätteeseen lisätään ylimääräistä kohinaa. Lopullinen suodatus painaa ääniominaisuuden spektrit. Tämän menetelmäluokan etuna on lähteen yksinkertainen perustaajuuden ohjaus. Haittapuolena ovat tietokantaan tallennetut suodatinparametrit, joita on vaikea määrittää puhenäytteistä. Suodattimen tyypistä tai puhumisen taustalla olevasta näkökulmasta riippuen erotetaan seuraavat menetelmät:

formanttien synteesi

Formanttisynteesi perustuu havaintoon, että vokaalien erottamiseksi riittää , että kaksi ensimmäistä formanttia toistetaan oikein . Jokaista formanttia simuloi kaistanpäästösuodatin , toisen asteen polarisoiva suodatin, jonka keskitaajuutta ja laatua voidaan ohjata . Formanttisynteesi voidaan toteuttaa suhteellisen helposti käyttämällä analogisia elektronisia piirejä.

akustinen malli

Akustinen malli toistaa ääniradan kokonaisresonanssiominaisuudet sopivan suodattimen kautta. Yksinkertaistetusti sanottuna äänitie nähdään usein putkena, jonka poikkileikkaus vaihtelee, poikittaiset moodit jätetään huomiotta, koska äänikanavan lateraalinen ulottuvuus on pieni. Poikkileikkausmuutoksia approksimoidaan edelleen tasaetäisyydellä olevilla poikkileikkaushyppyillä. Yleisesti valittu suodatintyyppi on ristikytkentäketjusuodatin , jossa poikkileikkauksen ja suodatinkertoimen välillä on suora yhteys. [4]

Nämä suodattimet liittyvät läheisesti Linear Predictive Codingiin (LPC), jota käytetään myös puhesynteesiin. LPC ottaa huomioon myös kaikki resonanssiominaisuudet, mutta suodatinkertoimien ja äänikanavan poikkileikkausmuodon välillä ei ole suoraa yhteyttä.

Artikulaatiosynteesi

Toisin kuin akustisessa mallissa, artikulaatiosynteesi muodostaa suhteen artikulaattorien asennon ja tuloksena olevan ääniradan poikkileikkauksen välille. Tässä käytetään aikadiskreettien ristikytkentäketjusuodattimien lisäksi aikajatkuvan Horn-yhtälön ratkaisuja simuloimaan resonanssiominaiskäyrää, josta aikasignaali saadaan Fourier -muunnolla .

päällekkäinen lisäys

Pitch Synchronous Overlap Add, lyhennettynä PSOLA, on synteesimenetelmä, jossa tietokanta sisältää tallenteet puhesignaalista. Jos signaalit ovat jaksollisia, niille annetaan tietoa perustaajuudesta (sävelkorkeudesta) ja kunkin jakson alku on merkitty. Synteesissä nämä tietyn ympäristön jaksot kartoitetaan ikkunafunktiollaleikataan pois ja lisätään syntetisoitavaan signaaliin sopivassa kohdassa: Riippuen siitä, onko haluttu perustaajuus suurempi vai pienempi kuin tietokantamerkinnän, ne kootaan enemmän tai vähemmän tiheästi kuin alkuperäisessä. Jaksot voidaan jättää pois tai tulostaa kahdesti äänen keston säätämiseksi. Tämä menetelmä tunnetaan myös nimellä TD-PSOLA tai PSOLA-TD (TM), jossa TD tarkoittaa Time Domainia ja korostaa, että menetelmät toimivat aikatasolla.

Jatkokehitys on Multi Band Resynthesis OverLap Add -menetelmä, lyhennettynä MBROLA . Tässä tietokannan segmentit esikäsitellään tasaiselle perustaajuudelle ja harmonisten vaiheasema normalisoidaan. Tämän seurauksena syntetisoitaessa siirtymää segmentistä toiseen havaitaan vähemmän havaintohäiriöitä ja saavutettu äänenlaatu on korkeampi.

Nämä synteesimenetelmät liittyvät rakeiseen synteesiin , jota käytetään äänenmuodostuksessa ja vieraantumisessa elektronisen musiikin tuotannossa.

Parametrinen puhesynteesi piilotetuista Markov-malleista (HMM) ja/tai stokastisista Markov-kaavioista (SMG)

Parametrinen puhesynteesi on ryhmä stokastisiin malleihin perustuvia menetelmiä. Nämä mallit ovat joko piilotettuja Markov-malleja (HMM) , stokastisia Markov-kaavioita (SMG) tai viime aikoina näiden kahden yhdistelmää. Perusperiaatteena on, että tekstin esikäsittelystä saadut symboliset foneemisekvenssit läpikäyvät tilastollisen mallintamisen ensin jakamalla ne segmenteiksi ja osoittamalla sitten kullekin segmentille oma malli olemassa olevasta tietokannasta. Jokainen näistä malleista puolestaan ​​on määritelty useilla parametreillakuvattu ja lopuksi linkitetty muihin malleihin. Prosessointi keinotekoiseksi puhesignaaliksi, joka perustuu mainittuihin parametreihin, päättää sitten synteesin. Jos käytetään joustavampia, stokastisempia Markovin graafia, voidaan tällaista mallia jopa optimoida siinä määrin, että tiettyä perusluonnollisuutta voidaan harjoitella etukäteen ja toimittamalla esimerkkejä luonnollisesta kielestä. Tämän tyyppiset tilastolliset menetelmät tulevat puheentunnistuksen päinvastaiselta alueelta, ja niitä motivoi tieto tietyn puhutun sanasekvenssin todennäköisyyden ja likimääräisen odotettavissa olevan puhenopeuden välisestä yhteydestä tai sen prosodiasta. [5] [6] [7]

Tekstistä puheeksi -ohjelmiston mahdolliset käyttötavat

Puhesynteesiohjelmiston käytön ei tarvitse olla itsetarkoitus. Näkövammaiset – mm. B. kaihi tai ikään liittyvä silmänpohjan rappeuma - käytä TTS-ohjelmistoratkaisuja lukeaksesi tekstit suoraan näytöltä. Sokeat voivat käyttää tietokonetta näytönlukijaohjelmistolla , ja he saavat tietoa käyttöelementeistä ja tekstisisällöstä. Luennoitsijat käyttävät myös puhesynteesiä luentojen tallentamiseen. Tekijät käyttävät myös TTS-ohjelmistoa itsekirjoitettujen tekstien virheiden ja ymmärrettävyyden tarkistamiseen.

Toinen sovellusalue on ohjelmisto, joka mahdollistaa MP3-tiedostojen luomisen . Tämä mahdollistaa puhesynteesiohjelmiston käytön yksinkertaisten podcastien tai ääniblogien luomiseen . Kokemus on osoittanut, että podcastien tai ääniblogien tuottaminen voi olla hyvin aikaa vievää.

Yhdysvaltalaisten ohjelmistojen kanssa työskennellessä on huomattava, että olemassa olevat äänet ovat erilaatuisia. Englanninkieliset äänet ovat laadukkaampia kuin saksalaiset. Yksi syy on suurempien saksankielisten tietokantojen saatavuuden väheneminen, joita tarvitaan keinotekoisen mallin koulutuksen perustana. Saksankielinen projekti Thorsten (ääni)yrittää täyttää tämän aukon. Tekstien 1:1 kopiota TTS-ohjelmistossa ei voida suositella, jälkikäsittely on joka tapauksessa tarpeen. Kyse ei ole vain lyhenteiden ja numeroiden korvaamisesta kirjoitetussa tekstissä, vaan myös välimerkkien lisääminen - vaikka ne eivät olisikaan kieliopillisesti oikein - voivat auttaa vaikuttamaan lauseen tempoon. Saksalaiset "käännökset" anglismeilla aiheuttavat yleensä ylitsepääsemättömän ongelman puhesynteesille.

Usein sovelluksia ovat ilmoitukset puhelin- ja navigointijärjestelmissä, automaattiset pysähtymisilmoitukset kulkuvälineissä.

puhesynteesiohjelmisto

Amiga SoftVoice puhesynteesi
  • AnalogX SayIt
  • Aristech
  • Audiodizer
  • Balabolka (ilmaisohjelma, 26 kieltä, SAPI4 ja SAPI5 )
  • BOSS, kehitetty Bonnin yliopiston viestintätieteiden instituutissa
  • Selaa ääneen tekstin mukaan HELP
  • Cepstraalinen tekstistä puheeksi
  • CereProc
  • Coqui AI [8]
  • DeskBot
  • espeak (avoin lähdekoodi, monet kielet, SAPI5)
  • festivaali
  • Festvox
  • FreeTTS (avoin lähdekoodi)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA tekstistä puheeksi
  • Linguatec Voice Reader 15
  • Logox-leikelukija
  • Loquendo TTS
  • SoftVoicen MacinTalk ja narrator.device
  • MARY Text-to-Speech, jonka on kehittänyt DFKI Language Technology Lab
  • MBROLA [9] eri ääniä (valmistettuja foneemeja) eri kielillä, joita voidaan käyttää puhesynteesiohjelmistoissa, kuten eSpeak tai Festival. [10]
  • Moduuli [11] Puheenmuunnosohjelmisto , käyttää Generative Adversarial Networks [12]
  • Mozilla TTS [13]
  • NaturalSoftin NaturalReader
  • Tom Weber -ohjelmiston OnScreenVoices
  • ReadSpeaker: Verkkosivujen lukeminen ja podcastien lähettäminen
  • Nuancen (entinen ScanSoft) Realspeak, nyt Kobaspeech 3
  • Don't Ask Softwaren SAM [14]
  • SpeechConcept
  • puhekone
  • SVOX:n libttspico-utils (komentoriviohjattu puhesynteesi saksaksi, englanniksi (GB ja USA), espanjaksi, ranskaksi ja italiaksi) [15]
  • synteesi 2
  • synteettinen 3
  • SYNVO
  • Tacotron (Google) [16]
  • Teksti ääneen MP3
  • Toshiba ToSpeak
  • TTS robotti
  • virsyn CANTOR vokaalin synteesi
  • Virtuaalinen ääni

puhesynteesilaitteisto

  • Votrax
    • SC-01A (analoginen formantti)
    • SC-02 / SSI-263 / "Arctic 263"
  • Yleinen instrumentin puheprosessori
    • SP0250
    • SP0256-AL2 "Puhuja" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000 [17]
  • National Semiconductor DT1050 Digital Core (Mozer)
  • Silicon Systems SSI 263 (analoginen formantti)
  • Texas Instruments
  • Oki Semiconductor
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS Voice Synthesizing LSI

Katso myös

kirjallisuus

  • Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Tekstistä puhuttuun kieleen. Julkaisussa: Henning Lobin , Lothar Lemnitzer (toim.): Text technology. näkökulmia ja sovelluksia. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , s. 295–325.
  • Jessica Riskin: Eighteenth-Century Wetware. Julkaisussa: Representations. Vol. 83, No. 1, 2003, ISSN  0734-6018 , s. 97–125, doi : 10.1525/rep.2003.83.1.97 .
  • James L. Flanagan: Speech Analysis, Synthesis and Perception (= kommunikaatio ja kybernetiikka yksittäisissä esityksissä. Vol. 3). 2. painos. Springer, Berlin et ai., 1972, ISBN 3-540-05561-4 . 1. painos 1965, 3. painos 2008 [18]
  • Ville Pulkki, Matti Karjalainen : Viestintäakustiikka: Johdatus puheeseen, ääneen ja psykoakustiikkaan. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .

nettilinkit

Wikisanakirja: Puhesynteesi  - merkityksen selitykset, sanan alkuperä, synonyymit, käännökset
Commons : Speech Synthesis  - Kuvien, videoiden ja äänitiedostojen kokoelma

tarina

järjestelmät

verkkokäyttöliittymät

alaviitteet

  1. Dennis Klattin puhesynteesin historia ( muisto 4. heinäkuuta 2006 Internet-arkistossa )
  2. Sami Lemmetty: Puhesynteesin historia ja kehitys. Julkaisussa: Review of Speech Synthesis Technology. TEKNILLINEN YLIOPISTO, 1.6.1999, katsottu 14.3.2019 (englanniksi).
  3. Arne Hoxbergen: Puhesynteesin historia muutamalla valitulla esimerkillä (PDF; 490 kB). Berliini 2005.
  4. Karl Schnell: Puhekanavan putkimallit. Frankfurt 2003.
  5. Patentti DE10040991C1 : Prosessi puheen parametriseen synteesiin. Jätetty 18. elokuuta 2000 , julkaistu 27. syyskuuta 2001 , Hakija: Technische Universität Dresden, Keksijät: Matthias Eichner, Matthias Wolf.
  6. Sivu ei enää saatavilla , hae verkkoarkistoista: Diplomarbeit_Breitenbuecher@1@2Vorlage:Toter Link/www.ims.uni-stuttgart.de
  7. Arkistoitu kopio ( Muisto 21. heinäkuuta 2014 Internet - arkistossa )
  8. Kotisivu Coqui AI - https://coqui.ai
  9. Tervetuloa MBROLA-projektiin. Julkaisussa: GitHub . UMONS Institute for Creative Technologies, 30. tammikuuta 2022. Haettu 30. tammikuuta 2022 .
  10. Äänilähtö. Julkaisussa: Wiki.ubuntuusers.de. Haettu 30. tammikuuta 2022 .
  11. Moduloi: Avaa äänesi. Haettu 14.3.2019 .
  12. Teknologiakatsaus: Puhu kuin Barack Obama. 14.3.2019, haettu 14.3.2019 .
  13. mozilla/TTS. Mozilla 7.2.2021, haettu 7.2.2021 .
  14. https://simulationcorner.net/index.php?page=sam
  15. libttspico-utils - Paketin kuvaus Debianissa
  16. Sebastian Grüner: Tacotron 2: Googlen puhesynteesi saavuttaa lähes inhimillisen laadun - Golem.de. Julkaisussa: golem.de. 21. joulukuuta 2017, haettu 14. maaliskuuta 2019 .
  17. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  18. Sisällysluettelo (pdf)