Puhesynteesi on ihmisen puheäänen keinotekoinen sukupolvi . Tekstistä puheeksi -järjestelmä ( TTS ) (tai automaattinen lukija ) muuntaa jatkuvan tekstin akustiseksi puhetulokseksi .
Periaatteessa voidaan erottaa kaksi lähestymistapaa äänisignaalien tuottamiseksi. Toisaalta ns. signaalimallinnuksen avulla voidaan päästä käsiksi äänitallenteisiin ( näytteisiin ). Toisaalta signaali voidaan generoida myös kokonaan tietokoneessa ns. fysiologisella (artikulatorisella) mallinnuksella. Ensimmäiset järjestelmät perustuivat formanttisynteesiin , mutta nykyään teollisesti käytetyt järjestelmät perustuvat pääasiassa signaalimallinnukseen.
Erityinen puhesynteesin ongelma on luonnollisen puhemelodian ( prosodian ) luominen.
Kauan ennen elektronisen signaalinkäsittelyn keksimistä tutkijat yrittivät rakentaa koneita, jotka voisivat tuottaa ihmispuhetta. Pronssinen "Talking Head" on annettu Gerbert of Aurillacille (1003), jonka kerrottiin pystyvän sanomaan "kyllä" ja "ei". Albertus Magnuksen (1198-1280) ja Roger Baconin ( 1214-1294) laitteet kuuluvat luultavasti enemmän legendojen piiriin .
Vuonna 1779 Kööpenhaminassa työskennellyt saksalainen tiedemies Christian Kratzenstein rakensi Pietarin akatemian kilpailuun "puheurut", jotka pystyivät syntetisoimaan viisi pitkää vokaalia (a, e, i, o ja u) vapaan värisevät kieliputket resonaattoreilla, jotka on mallinnettu ihmisen äänikanavan mukaan . Wolfgang von Kempelen kehitti puhekoneen jo noin 1760, jonka hän esitteli vuoden 1791 julkaisussaan "Ihmisen kielen mekanismi yhdessä puhekoneen kuvauksen kanssa". Kuten Kratzensteinin, tämä synteesi perustui palkeeseen keuhkovastineena, mutta varsinainen viritys tapahtui paljon anatomisemmin yhdellä lyövällä kieliputkella. Tämä teki jotkin vokaalit ja räjähteet mahdollisiksi. Lisäksi jotkin frikatiivit voidaan esittää erilaisilla mekanismeilla. Äänihuuihin kiinnitettiin nahkaputki, jonka muotoa voitiin muuttaa yhdellä kädellä ja joka näin jäljitteli ääniradan muuttuvaa geometriaa ja resonanssikäyttäytymistä. Von Kempelen kirjoitti:
"Hankittavan soittotaidon hankkiminen kolmessa viikossa, varsinkin kun siirrytään latinaksi, ranskaksi tai italiaksi, saksan kielelle on paljon vaikeampaa [usein esiintyvien konsonanttiryhmien vuoksi] ."
Charles Wheatstone rakensi tähän malliin perustuvan puhekoneen vuonna 1837 , kopio löytyy Deutsches Museumista . Vuonna 1857 Joseph Faber rakensi Euphonia , joka myös noudattaa tätä periaatetta.
1800-luvun lopulla kiinnostus kehittyi pois ihmisen puheelinten replikoinnista (geneettinen puhesynteesi) kohti akustisen tilan simulointia (gennemaattinen puhesynteesi). Esimerkiksi Hermann von Helmholtz oli ensimmäinen, joka syntetisoi vokaalit ääniradan resonanssitaajuuksille viritettyjen äänihaarukoiden avulla tietyissä vokaalipaikoissa. Näitä resonanssitaajuuksia kutsutaan formantteiksi . Puhesynteesi formantteja yhdistämällä oli teknisesti valtavirtaa 1990-luvun puoliväliin asti.
1930- luvulla Bell Labs kehitti vokooderin , näppäimistöohjatun elektronisen puhesyntetisaattorin, jonka sanottiin olevan selvästi ymmärrettävä. Homer Dudley paransi tätä konetta vuoden 1939 maailmannäyttelyssä esitellyksi Voderiksi . Voder käytti sähköoskillaattoria muodostamaan formanttitaajuudet.
Ensimmäiset tietokonepohjaiset puhesynteesijärjestelmät kehitettiin 1950-luvun lopulla, ja ensimmäinen täydellinen tekstistä puheeksi -järjestelmä valmistui vuonna 1968. Fyysikko John Larry Kelly Jr kehitti puhesynteesin Bell Labsissa vuonna 1961 käyttämällä IBM 704:ää ja pyysi häntä laulamaan kappaleen Daisy Bell . Ohjaaja Stanley Kubrick teki siitä niin vaikutuksen, että hän sisällytti sen elokuvaan 2001: A Space Odyssey .
Vaikka varhainen elektroninen puhesynteesi kuulosti vielä hyvin robotiselta ja joskus vaikeasti ymmärrettävältä, se on saavuttanut vuosituhannen vaihteen jälkeen laadun, jossa sitä on joskus vaikea erottaa ihmispuhujista. Tämä johtuu suurelta osin siitä, että tekniikka on siirtynyt pois puhesignaalin varsinaisesta syntetisoinnista ja keskittymisestä tallennettujen puhesegmenttien optimaaliseen ketjuttamiseen. [1] [2] [3]
Puhesynteesi edellyttää ihmisen puheen analysointia foneemien , mutta myös prosodian osalta, koska lauseella voi olla erilaisia merkityksiä vain lausemelodian kautta.
Mitä tulee itse synteesiprosessiin, on olemassa erilaisia menetelmiä. Kaikille menetelmille on yhteistä se, että ne pääsevät tietokantaan, johon on tallennettu kielisegmenttien ominaistiedot. Tämän luettelon kohteet on linkitetty haluttuun ilmaisuun. Puhesynteesijärjestelmät voidaan luokitella tietokannan inventaarion ja erityisesti linkitystavan perusteella. Signaalisynteesi on yleensä sitä helpompaa, mitä suurempi tietokanta on, koska se sisältää jo elementtejä, jotka ovat lähempänä haluttua lausumaa ja vähemmän signaalinkäsittelyä tarvitaan. Samasta syystä luonnollisemmalta kuulostava synteesi onnistuu yleensä suurella tietokannalla.
Synteesin vaikeus piilee inventaarion elementtien yhdistämisessä. Koska nämä tulevat eri ilmaisuista, ne eroavat myös äänenvoimakkuudeltaan, perustaajuudesta ja formanttien sijainnista. Kun tietokantaa esikäsitellään tai kun inventaarioelementtejä yhdistetään, nämä erot tulee mahdollisimman hyvin kompensoida (normalisointi) , jotta synteesin laatu ei heikkene.
Yksikkövalikoima tarjoaa parhaan laadun erityisesti rajoitetulla toimialueella . Synteesi käyttää suurta puhetietokantaa, jossa jokainen tallennettu ilmaisu on segmentoitu joihinkin tai kaikkiin seuraavista yksiköistä:
Nämä segmentit on tallennettu useiden akustisten ja foneettisten ominaisuuksien, kuten äänenkorkeuden, keston tai naapureiden kartan kanssa.
Synteesiä varten käytetään erityisiä hakualgoritmeja , painotettuja päätöspuita , määrittämään sarja mahdollisimman suuria segmenttejä, jotka ovat näiden ominaisuuksien suhteen mahdollisimman lähellä syntetisoitavaa lausumaa. Koska tämä sarja lähetetään vain vähän tai ei ollenkaan signaalinkäsittelyä, puhutun kielen luonnollisuus säilyy niin kauan kuin tarvitaan muutamia ketjutuspisteitä.
2000-luvun alussa tehdyt kokeet ovat osoittaneet, että foneettisten siirtymien oikea toisto on olennaista puhesynteesin ymmärrettävyyden kannalta. Kaikkien foneettisten siirtymien tallentamiseen käytetään noin 2500 merkinnän tietokantaa. Se tallentaa kiinteän osan aika-alueen, foneemin keskellä olevan foneemin, seuraavan foneemin kiinteään osaan asti. Synteesiä varten tiedot kootaan vastaavasti ( ketjutettu ).
Enemmän yhteisartikulaatiovaikutuksia , jotka lisäävät paljon puheen luonnollisuutta, voidaan ottaa huomioon käyttämällä laajempia tietokantoja. Esimerkki tästä on Hadifix , joka sisältää puolitavut , difonin ja jälkiliitteen e .
Signaalin generointi toistaa halutut segmentit tietokannasta määritellyllä perustaajuuskäyrällä. Tämä perustaajuuskäyrän ominaisuus voidaan tehdä eri tavoilla, joissa seuraavat menetelmät eroavat toisistaan.
Synteesissä, joissa käytetään lähde-suodatinerotusta, käytetään signaalilähdettä, jolla on jaksollinen aaltomuoto. Niiden jakson pituus asetetaan vastaamaan syntetisoitavan lausunnon perustaajuutta. Foneemityypistä riippuen tähän herätteeseen lisätään ylimääräistä kohinaa. Lopullinen suodatus painaa ääniominaisuuden spektrit. Tämän menetelmäluokan etuna on lähteen yksinkertainen perustaajuuden ohjaus. Haittapuolena ovat tietokantaan tallennetut suodatinparametrit, joita on vaikea määrittää puhenäytteistä. Suodattimen tyypistä tai puhumisen taustalla olevasta näkökulmasta riippuen erotetaan seuraavat menetelmät:
Formanttisynteesi perustuu havaintoon, että vokaalien erottamiseksi riittää , että kaksi ensimmäistä formanttia toistetaan oikein . Jokaista formanttia simuloi kaistanpäästösuodatin , toisen asteen polarisoiva suodatin, jonka keskitaajuutta ja laatua voidaan ohjata . Formanttisynteesi voidaan toteuttaa suhteellisen helposti käyttämällä analogisia elektronisia piirejä.
Akustinen malli toistaa ääniradan kokonaisresonanssiominaisuudet sopivan suodattimen kautta. Yksinkertaistetusti sanottuna äänitie nähdään usein putkena, jonka poikkileikkaus vaihtelee, poikittaiset moodit jätetään huomiotta, koska äänikanavan lateraalinen ulottuvuus on pieni. Poikkileikkausmuutoksia approksimoidaan edelleen tasaetäisyydellä olevilla poikkileikkaushyppyillä. Yleisesti valittu suodatintyyppi on ristikytkentäketjusuodatin , jossa poikkileikkauksen ja suodatinkertoimen välillä on suora yhteys. [4]
Nämä suodattimet liittyvät läheisesti Linear Predictive Codingiin (LPC), jota käytetään myös puhesynteesiin. LPC ottaa huomioon myös kaikki resonanssiominaisuudet, mutta suodatinkertoimien ja äänikanavan poikkileikkausmuodon välillä ei ole suoraa yhteyttä.
Toisin kuin akustisessa mallissa, artikulaatiosynteesi muodostaa suhteen artikulaattorien asennon ja tuloksena olevan ääniradan poikkileikkauksen välille. Tässä käytetään aikadiskreettien ristikytkentäketjusuodattimien lisäksi aikajatkuvan Horn-yhtälön ratkaisuja simuloimaan resonanssiominaiskäyrää, josta aikasignaali saadaan Fourier -muunnolla .
Pitch Synchronous Overlap Add, lyhennettynä PSOLA, on synteesimenetelmä, jossa tietokanta sisältää tallenteet puhesignaalista. Jos signaalit ovat jaksollisia, niille annetaan tietoa perustaajuudesta (sävelkorkeudesta) ja kunkin jakson alku on merkitty. Synteesissä nämä tietyn ympäristön jaksot kartoitetaan ikkunafunktiollaleikataan pois ja lisätään syntetisoitavaan signaaliin sopivassa kohdassa: Riippuen siitä, onko haluttu perustaajuus suurempi vai pienempi kuin tietokantamerkinnän, ne kootaan enemmän tai vähemmän tiheästi kuin alkuperäisessä. Jaksot voidaan jättää pois tai tulostaa kahdesti äänen keston säätämiseksi. Tämä menetelmä tunnetaan myös nimellä TD-PSOLA tai PSOLA-TD (TM), jossa TD tarkoittaa Time Domainia ja korostaa, että menetelmät toimivat aikatasolla.
Jatkokehitys on Multi Band Resynthesis OverLap Add -menetelmä, lyhennettynä MBROLA . Tässä tietokannan segmentit esikäsitellään tasaiselle perustaajuudelle ja harmonisten vaiheasema normalisoidaan. Tämän seurauksena syntetisoitaessa siirtymää segmentistä toiseen havaitaan vähemmän havaintohäiriöitä ja saavutettu äänenlaatu on korkeampi.
Nämä synteesimenetelmät liittyvät rakeiseen synteesiin , jota käytetään äänenmuodostuksessa ja vieraantumisessa elektronisen musiikin tuotannossa.
Parametrinen puhesynteesi on ryhmä stokastisiin malleihin perustuvia menetelmiä. Nämä mallit ovat joko piilotettuja Markov-malleja (HMM) , stokastisia Markov-kaavioita (SMG) tai viime aikoina näiden kahden yhdistelmää. Perusperiaatteena on, että tekstin esikäsittelystä saadut symboliset foneemisekvenssit läpikäyvät tilastollisen mallintamisen ensin jakamalla ne segmenteiksi ja osoittamalla sitten kullekin segmentille oma malli olemassa olevasta tietokannasta. Jokainen näistä malleista puolestaan on määritelty useilla parametreillakuvattu ja lopuksi linkitetty muihin malleihin. Prosessointi keinotekoiseksi puhesignaaliksi, joka perustuu mainittuihin parametreihin, päättää sitten synteesin. Jos käytetään joustavampia, stokastisempia Markovin graafia, voidaan tällaista mallia jopa optimoida siinä määrin, että tiettyä perusluonnollisuutta voidaan harjoitella etukäteen ja toimittamalla esimerkkejä luonnollisesta kielestä. Tämän tyyppiset tilastolliset menetelmät tulevat puheentunnistuksen päinvastaiselta alueelta, ja niitä motivoi tieto tietyn puhutun sanasekvenssin todennäköisyyden ja likimääräisen odotettavissa olevan puhenopeuden välisestä yhteydestä tai sen prosodiasta. [5] [6] [7]
Puhesynteesiohjelmiston käytön ei tarvitse olla itsetarkoitus. Näkövammaiset – mm. B. kaihi tai ikään liittyvä silmänpohjan rappeuma - käytä TTS-ohjelmistoratkaisuja lukeaksesi tekstit suoraan näytöltä. Sokeat voivat käyttää tietokonetta näytönlukijaohjelmistolla , ja he saavat tietoa käyttöelementeistä ja tekstisisällöstä. Luennoitsijat käyttävät myös puhesynteesiä luentojen tallentamiseen. Tekijät käyttävät myös TTS-ohjelmistoa itsekirjoitettujen tekstien virheiden ja ymmärrettävyyden tarkistamiseen.
Toinen sovellusalue on ohjelmisto, joka mahdollistaa MP3-tiedostojen luomisen . Tämä mahdollistaa puhesynteesiohjelmiston käytön yksinkertaisten podcastien tai ääniblogien luomiseen . Kokemus on osoittanut, että podcastien tai ääniblogien tuottaminen voi olla hyvin aikaa vievää.
Yhdysvaltalaisten ohjelmistojen kanssa työskennellessä on huomattava, että olemassa olevat äänet ovat erilaatuisia. Englanninkieliset äänet ovat laadukkaampia kuin saksalaiset. Yksi syy on suurempien saksankielisten tietokantojen saatavuuden väheneminen, joita tarvitaan keinotekoisen mallin koulutuksen perustana. Saksankielinen projekti Thorsten (ääni)yrittää täyttää tämän aukon. Tekstien 1:1 kopiota TTS-ohjelmistossa ei voida suositella, jälkikäsittely on joka tapauksessa tarpeen. Kyse ei ole vain lyhenteiden ja numeroiden korvaamisesta kirjoitetussa tekstissä, vaan myös välimerkkien lisääminen - vaikka ne eivät olisikaan kieliopillisesti oikein - voivat auttaa vaikuttamaan lauseen tempoon. Saksalaiset "käännökset" anglismeilla aiheuttavat yleensä ylitsepääsemättömän ongelman puhesynteesille.
Usein sovelluksia ovat ilmoitukset puhelin- ja navigointijärjestelmissä, automaattiset pysähtymisilmoitukset kulkuvälineissä.
tarina
järjestelmät
verkkokäyttöliittymät