PDA

Bekijk de volledige versie : Spraakherkenning steeds beter


Barst
19th September 2006, 02:59
Spraakherkenning steeds beter


Spraakherkenning maakt het mogelijk om met behulp van simpele spraakcommando’s computerprogramma’s op te starten, over internet te surfen én het vervelende tikwerk over te laten aan de pc.


Voorheen zaten er nogal wat haken en ogen aan zo'n systeem, zoals een lange trainingstijd.
De jongste versies zijn echter behoorlijk snel en in meerdere talen te verkrijgen. Daardoor zijn ze niet meer alleen voor mensen met een lichamelijke handicap een uitkomst. Met de Nederlandse versie van Dragon NaturallySpeaking (DNS) versie 9 is volgens de fabrikant – het Amerikaanse Nuance Communications – het niveau bereikt „waarop invoer via de stem even soepel verloopt als via het toetsenbord en de muis”.

Tijdens de officiële lancering van het nieuwe softwarepakket afgelopen zondag werd bovendien een nauwkeurigheid tot 99 procent beloofd, en „directe herkenning van ieders stem, zonder de noodzaak tot training”.

Laten we maar meteen de proef op de som nemen. De bijgeleverde headset gaat op (een vrijstaand microfoontje kan ook gebruikt worden). Ik schraap mijn keel en zeg tegen de computer: [word wakker] Test test [punt] Hoera [komma] de computer reageert en zet nu mijn gesproken woorden om in tekst [punt] Het is wel even wennen om ook de interpunctie te dicteren [komma] maar verder gaat het geweldig [uitroepteken] [ga slapen]

Zo, de microfoon staat weer in de zogeheten slaapstand. Helemaal perfect ging het niet; bij het woord ’ziet’ heb ik de e er met het toetsenbord tussen gesmokkeld, want in eerste instantie verscheen ’zit’ op het scherm. Toch vind ik het geen slecht begin en het geeft een beetje het gevoel in een sciencefiction-film beland te zijn als een computer echt doet wat je zegt.

Eigenlijk is het een wonder dat een computer die alleen maar nullen en enen kent, in staat is om geluid dat via een microfoon binnenkomt, om te zetten in geschreven tekst of handelingen om de computer te besturen. Zeker als je bedenkt dat ieder mens een uniek stemgeluid heeft.

Simpel gezegd werkt spraakherkenning als volgt: bij elk geluid scant de software het ingebouwde lexicon waarin geluidsprofielen – unieke combinaties nullen en enen – gekoppeld zijn aan woorden. De computer zoekt steeds het woord op dat het meest overeenkomt met het geluidsprofiel van de geregistreerde klanken. Daarnaast voert hij een ingewikkelde statistische berekening uit waarbij de context wordt gebruikt om te bepalen hoe groot de kans is dat de spreker een bepaald woord bedoelt.

Het lexicon van Dragon NaturallySpeaking omvat meer dan 200.000 woorden. Zeg maar de complete dikke Van Dale – helaas volgens het Groene Boekje, terwijl deze krant de Witte Spelling hanteert – plus de meest bekende eigennamen. Daarmee kom je als gebruiker een heel eind en het is vrij simpel om de computer nieuwe woorden te leren. Bijvoorbeeld mijn eigen naam. Gekken en dwazen*.

[word wakker] directie [spel dat] j-e-s-s-i-e. De eerste keer leek mijn naam dus het meest op het woord directie, maar na de verbetering zou het woord in zijn correcte vorm toegevoegd moeten zijn aan het lexicon [komma] zodat de computer voortaan mijn naam herkent [dubbele punt] jessie [punt] Wonderen bestaan [punt] [nieuwe regel]

Moeilijke woorden waar je tijdens het typen twee keer bij moet nadenken of lange woorden, lepelt de computer zo op [dubbele punt] assurantieportefeuille, ongevallenverzekeringswet [punt] Zolang ze maar in het lexicon staan [punt] [ga slapen]

Schrijven met de stem vraagt wel een omschakeling in het denken. Je moet een complete zin in je hoofd hebben voordat je begint te spreken, want elke hapering wordt door de computer omgezet in tekst. En je halverwege een woord bedenken en snel op de backspace-toets drukken, is er ook niet bij.

Het is raadzaam om te beginnen met het voorlezen van een bladzijde uit een willekeurig boek. Zo krijgt de computer de gelegenheid om zich aan te passen aan de stem van de gebruiker. Deze kan op zijn beurt het dicteren oefenen en uitproberen hoe goed hij moet articuleren, hoe snel of hoe langzaam hij kan praten en hoe hard hij moet spreken om de herkenning optimaal te krijgen.

De laatste tien jaar heeft spraakherkenning een grote vlucht genomen (hoewel het aantal aanbieders van Nederlandstalige software gedaald is tot één, namelijk Nuance, het voormalige Scansoft dat in 2001 het failliete Lernout & Hauspie overnam en Philips uit de markt heeft geconcurreerd). Halverwege de jaren negentig pauzeerde je nog na elk woord om de computer de tijd te geven het veel beperkter lexicon door te snuffelen, en was er voor het geven van commando’s een aanvullend programma nodig. Tijdwinst viel niet te verwachten. De huidige software verwerkt echter met gemak 150 woorden per minuut (normaal spreektempo) terwijl de gemiddelde typesnelheid niet boven de 40 woorden per minuut komt.

Het programma wordt dan ook niet meer gepresenteerd als alleen een oplossing voor mensen met ernstige hand-, arm- en schouderklachten, maar als leuke en handige tool voor iedereen die achteroverleunend in zijn bureaustoel wil chatten, brieven dicteren en mailtjes versturen.

Het nieuwste snufje is de mogelijkheid om met een draagbare recorder op elke gewenste locatie, op een zelfgekozen tijdstip een dictaat op te nemen en dat later te laten uitschrijven door de computer. Dit verloopt echter nog lang niet vlekkeloos en niet alle merken PDA’s (draagbare recorders) kunnen gekoppeld worden aan DNS.

Natuurlijk blijft er altijd wat te wensen over, want ook versie 9 is zeker nog niet perfect. Zo blijft het jammer dat DNS niet kan draaien op een mac. En hoewel de leerfase sterk bekort is ten opzichte van eerdere versies, vraagt het programma in het begin echt wel wat geduld van de gebruiker.

Maar eigenlijk het valt het het systeem niet kwalijk te nemen dat het even moet wennen aan een nieuw stemgeluid. Man, vrouw, Limburger, Rotterdammer, Surinamer, slissende tiener of bejaarde; stuk voor stuk geven zij het ABN hun hoogstpersoonlijke kleur. Daarom duurt het nog altijd een paar dagen voordat de software optimaal reageert.

Tot slot nog even wat proberen. Je kunt namelijk in vier talen dicteren and although my pronounciation is terrible, it is nice to see that I can write in English without making spelling mistakes. Auch die deutsche Sprache gibt sofort keine Probleme mehr. Même le français n’est pas une obstacle. Miraculeusement!

Wel, misschien is 99 procent herkenning wat aan de optimistische kant en bevat versie 9 voor doorgewinterde gebruikers van spraakherkenning te weinig nieuwe mogelijkheden om geld uit te geven aan een upgrade. Maar dankzij de sterk bekorte leerfase is spraakherkenning nu laagdrempeliger dan ooit. [Word wakker] Succes [ga slapen]


Spraakherkenning

In het Huis van de Toekomst doen we de verwarming, magnetron en lichten aan en de voordeur en garage op slot met onze stem. Maar zover is het nog lang niet. Een van de weinige toepassingen van spraakherkenningtechnologie op dit moment is, naast het besturen van computers, de mogelijkheid die sommige (mobiele) telefoons hebben om door het noemen van een naam een nummer te kiezen. Handig bijvoorbeeld in de auto: ’bel Frank’, in de hoop dat je even later niet Frans aan de lijn krijgt. Ook zijn er telefoondiensten waarbij de beller gevraagd wordt met ’ja’ of ’nee’ te antwoorden, of zijn postcode in te spreken waarna deze analoge informatie wordt omgezet in digitale data. Deze systemen zijn nog niet zo verfijnd en erg duur, maar volgens veel wetenschappers zal spraakherkenning een steeds grotere plaats gaan innemen in ons leven.


Systeemvereisten

Dragon NaturallySpeaking kan op elke pc (niet op een mac!) geïnstalleerd worden. Minimale systeemeisen: een 1-GHz-processor (met een snellere processor werkt het programma sneller), 512 MB RAM, 1 GB ruimte op de vaste schijf, Windows XP of hoger; Kosten: € 99 voor de Standard-versie die voor de meeste thuisgebruikers voldoende is. Iets geavanceerder is DNS Preferred (€ 199). Voor professionals – onder anderen medici en juristen – zijn er speciale, maar ook veel duurdere pakketten.


Trouw, 18-09-2006