VoCo: Adobe maakt Photoshop voor spraak

19 reacties

Een foutje in een afbeelding is met Photoshop zo gefikst, maar in podcasts, interviews en voice-overs heb je die luxe niet. Adobe wil dat met VoCo mogelijk gaan maken. De software analyseert een stemopname en kan vervolgens woorden veranderen.

Naast praktisch is het ook best eng. Je kunt zo iemand dingen laten zeggen die hij nooit heeft gezegd. Na analyse van een stemopname kunnen woorden getypt worden die met de nagebootste stem te horen zijn.

Bedrieglijk echt

Voor een goed resultaat is minimaal 20 minuten bronmateriaal met de originele stem nodig. De software maakt vervolgens bedrieglijk echte samples. In onderstaande video demonstreert ontwikkelaar Zeyu Jin een experimentele versie van de software.

Adobe is zich ervan bewust dat deze techniek misbruik kan worden en werkt aan een systeem dat de originele opname een watermerk geeft en aan een techniek om het gebruik van VoCo te detecteren. Dit voorkomt niet alle misbruik, maar maakt het bij grote zaken zoals politieke schandalen of zaken rondom celebrities mogelijk om vervalste opnamen te detecteren.

Het is nog onduidelijk wanneer VoCo in Adobe Audition of Premiere beschikbaar zal zijn. De getoonde demo was slechts een sneak preview en de software is nog niet af.

Reacties

19 reacties
  • Profielfoto
    Buzz

    Het is natuurlijk geen nieuwe techniek, en de techniek heeft behalve enge ook erg nuttige toepassingen in sommige uitzonderlijke situaties, zoals in het geval van Roger Ebert.

  • Profielfoto
    Shmoo

    Ook fascinerend gewoon, dat je een feature met spraak kunt laten aankondigen door iemand die waarschijnlijk een -4 voor articulatie op zijn rapport had.

    Zou er een speciaal uitzendbureau zijn voor dit soort mensen. Een bedrijf waar je naar toe kunt stappen en zeggen, ik heb een model nodig om nieuwe zomerjurkjes te tonen, dus geef mij iemand met een klompvoet en een houten oog.

  • Profielfoto
    wensink

    Dit klinkt beter dan Siri. Maar het is wel heel gevaarlijk denk ik… al helemaal als dit nog iets beter wordt.

  • Profielfoto
    kasuja

    Dit kon je wel eens in benarde situatie brengen:D

  • Profielfoto
    VeRCEttY

    OK.. zijn die mensen daar allemaal aan de speed ofzo?

  • Profielfoto
    H.deweg

    Zal “lucky TV” blij mee zijn.
    Maar zonder gekheid, dit vormt wel echt een gevaar voor bijvoorbeeld de gehele rechtspraak, bewijslast etc… Ik denk niet dat technologische ontwikkelingen tegen te houden zijn, maar hier zal echt wetgeving voor moeten komen. Om iets betrouwbaar sonisch te beveiligen lijkt me namelijk niet mogelijk.

  • Profielfoto
    Buzz

    Audiobewerking bestaat al langer, en dezelfde bedenkingen gelden ook al vele jaren voor beeldbewerking, en zijn op dat gebied wel zo’n beetje helemaal uitgekauwd, dus ik zie daarin niet veel nieuws.

  • Profielfoto
    VeRCEttY

    Gaat niet gebeuren. Teveel juridische haken en ogen. Wel leuk hypeje

  • Profielfoto
    H.deweg

    Lieve Buzz, ik werk mijn hele leven al in een geluidsstudio, ik weet van heel veel (alle) plugins zo kun je met bijvoorbeeld Melodyne heel veel doen, maar dat is meer voor zang en harmony. Een sample van iemands stem nemen en hem/haar dan van alles laten zeggen (op een overtuigende manier) bestaat echt nog nada noppes helemaal niet. Plakken en knippen gaat je ook niet lukken, dictie en klankkleur verschillen zijn niet heel makkelijk te repareren, den menselijke spraak is best gecompliceerd. Als dit echt zou gaan werken, wat ik niet als onmogelijk acht, dan heb je een serieus probleem.

    Met beeld ligt dat heel anders omdat je daar ook nog context hebt (een locatie) etc, als er meerdere mensen met je op de foto staan, moeten die dat ook zich allemaal kunnen herinneren en neem sowieso van mij aan dat ook iemand ergens overtuigend inshoppen is lang niet zo makkelijk als jij kennelijk denkt.

  • Profielfoto
    Buzz

    H.deweg: goed, de technologie bestaat misschien nog niet in een commercieel verkrijgbaar product, maar dat betekent nog niet dat de technologie compleet nieuw is. Bekijk de informatie over wijlen Roger Ebert’s spraaksynthesizer maar eens.

    De ‘zwakke plekken’ van beeldbewerking die je noemt, gelden volgens mij net zo goed voor geluid/spraakbewerking. Ook al klinkt het misschien op het eerste gehoor overtuigend, ik denk dat als je de digitale geluidsbestanden gaat analyseren, je toch vrijwel altijd de signatuur van de spraaksynthese software terug gaat kunnen vinden. Net zoals je bij beeld met de juiste analyse met grote waarschijnlijkheid kan terugvinden waar Photoshop tools, zoals cloning, zijn gebruikt. In beide gevallen gaat het over signal processing.

  • Profielfoto
    H.deweg

    Beste Buzz,

    maar dat betekent nog niet dat de technologie compleet nieuw is

    Dat zeg ik toch ook helemaal niet. Techniek bouwt altijd door op het verleden. Dit gaat er niet over dat iets steeds beter wordt, maar dat er in dit proces een heel kritiek punt te markeren is namelijk: het singulaire moment dat iets niet meer van echt te onderscheiden valt en welke consequenties dat met zich mee zou brengen.

    De ‘zwakke plekken’ van beeldbewerking die je noemt, gelden volgens mij net zo goed voor geluid/spraakbewerking.

    Neen helemaal niet. Geluid heeft namelijk veel minder context. Je kan zeggen dat het overal vandaan komt. Een gesprek kan op wel honderd feestjes zijn opgenomen, daar kan je van alles over beweren zonder dat dat gemakkelijk te weerleggen valt, van een foto is dat een stuk lastiger.

    Ook al klinkt het misschien op het eerste gehoor overtuigend, ik denk dat als je de digitale geluidsbestanden gaat analyseren, je toch vrijwel altijd de signatuur van de spraaksynthese software terug gaat kunnen vinden

    Als je mijn stukje goed had gelezen dan zet ik erbij “op een overtuigende manier” vooralsnog bestaat zo’n programma nog helemaal niet. Dat meldde ik ook in mijn eerste post. Mijn hele stukje gaat erover wanneer er WEL een dergelijk programma zou zijn, dat je dan een heel serieus probleem hebt. En ik acht het niet uitgesloten dat er op een gegeven moment zoiets zou kunnen bestaan. Zo refereer ik aan het programma “Melodyne”.Vroeger hield men het voor onmogelijk dat je uit een meerstemmig koor even digitaal een stem zou kunnen filteren en in toonhoogte zou kunnen aanpassen, welnu dat kan dus inmiddels wel en werkt angstvallig goed. Melodyne

  • Profielfoto
    Buzz

    Ik denk dat ik je stukje wel goed gelezen heb maar dat ik het compleet niet met je beweringen eens ben.

    Er zijn ook al sinds jaar en dag menselijke stem-imitatoren, vaak komieken die er een beetje in overdrijven voor komisch effect. Lucky TV is ook een goed voorbeeld van wat je met knippen en plakken en imitatie al kan bereiken. Niet alles, maar wel veel.

    Een op zichzelf staande stemopname zonder dat de bron overduidelijk is, is, alleen al door bovengenoemde zaken, al nooit een erg overtuigend bewijsmiddel geweest. Voor kwade toepassingen hoeven we dus volgens mij echt niet banger te zijn dan bij beeldbewerking al het geval is.

    Melodyne ken ik niet, maar is op het eerste gezicht qua functionaliteit vergelijkbaar met flex editing in Logic. Mijn punt was dat hoe goed zulke software ook werkt, tot op het punt dat er geen hoorbaar verschil valt te ontdekken, het altijd een signatuur achter zal laten van de gebruikte wiskundige bewerkingen op sample niveau. Uiteindelijk is het allemaal digital signal processing, zowel bij beeld en geluid. En de software daarvoor maakt er slim gebruik van dat onze ogen en oren voor bepaalde delen van het signaal meer- en minder gevoelig zijn. Dat hoor en zie je niet terug, als het goed gebruikt wordt, maar valt wel vaak nog te traceren met de juiste tools en kennis.

  • Profielfoto
    H.deweg

    Je begrijpt er echt de ballen van. Mijn punt gaat over een tool die er zou kunnen komen maar er nog niet is. Ik heb het over een hypothetisch geval, wat gezien de huidige ontwikkelingen (zie de tool die Adobe ontwikkelt) niet geheel ondenkbaar is, dat was immers de aanleiding. En wanneer die er is dat het dan enorme consequenties zou hebben. (Wat je zelf ook aangeeft want straks heb ik de “de juiste tools en kennis” nodig om er zeker van te zijn dat ik mijn moeder aan de telefoon heb, nu hoor ik dat gewoon) Daar heb ik het over en niet over de huidige stand van zaken. In mijn eerste post heb ik al aangegeven dat dergelijke software nu nog niet bestaat en zit je mij nu na te kauwen. Verder ga je ook helemaal niet op mijn argumenten in.
    Dus nee je kunt niet lezen of laten we zeggen begrijpend lezen, toedeloe en nog een fijne dag!

  • Profielfoto
    Buzz

    De pot verwijt de ketel! Wie gaat er nou niet op argumenten in? Ik wil je niet onnodig bang maken, maar je kan er nu ook al niet zeker van kan zijn dat je je moeder wel aan de lijn hebt, want ik kan zo een imitator inhuren die haar na doet. Of a la Lucky TV wat geluidsfragmenten aan elkaar plakken. Dat soort dingen gebeurde toch al wel eens bij komisch bedoelde radio-programma’s, om mensen te foppen? Er is zelfs een tijdje terug een geval in het nieuws geweest met zeer tragische afloop. Dus je hoeft eigenlijk niet eens echt te wachten op toekomstige techniek om bang te worden van dit soort scenarios.

    Verder zal jouw hypothetisch perfecte toekomstige versie van Adobe’s nieuwe tool nog steeds gebaseerd zijn op digital signal processing, en dus op wiskunde die op slimme, maar vaak nog wel te achterhalen manier, ergens meer van maakt dan dat er was.

  • Profielfoto
    H.deweg

    Als je straks alleen maar op een soort van DNA’achtige manier kunt uitvinden of iets wel of niet door iemand is gezegd, dan ligt er een zee aan fraude mogelijkheden open. Overigens haalt een telefoongesprek, al heel wat van jou “wiskundige signal processing” bitjes weg. Met compressie en conversie verdwijnt er veel. Mijn hele punt is en was dat je hier de deur opent naar een nieuwe werkelijkheid waarin iemands stem niet meer perse van hemzelf is, op zijn minst in veel mindere mate. En dat is leuk om over na te denken.

  • Profielfoto
    Buzz

    Mee eens. Volgens mij bestaat alleen die hele situatie, inclusief de zee aan fraude mogelijkheden, nu dus al, al is het misschien op een wat meer low-tech manier dan in de toekomst.

  • Profielfoto
    H.deweg

    De mogelijkheden die nu in de Adobe tool worden voorgesteld gaan veel verder dan tot nu toe mogelijk was. Plakken en knippen is iets heel anders dan dat je iemand nieuwe tekst kan laten uitspreken of zelfs realtime iemands stem kan nadoen. Dat is revolutionair en biedt derhalve gelijk evenredige al dan niet frauduleuze mogelijkheden.
    Na ja pff ik houd er over op

  • Profielfoto
    Ree

    Ik zie fantastische mogelijkheden om bijvoorbeeld oude hoorspelen in ere te herstellen. Denk bijvoorbeeld aan Sprong in het heelal waarbij de eerste 3 hoofdstukken en delen van het 4e en 5e hoofdstuk verloren zijn geraakt. verzamel 20 minuten spraakmateriaal van één personage, type de missende spraak uit, voila!

    Ik ben daarbij ook erg benieuwd of ze intonatie kunnen beïnvloeden met VoCo, anders zul je, vooral bij lange teksten, toch gaan merken dat het niet klopt…

  • Profielfoto
    Dick de Roos

    Of je hier een virtueel persoon compleet nieuwe teksten kan laten zeggen is mij nog niet geheel duidelijk.
    In het voorbeeldfilmpje werden hier-en daar woorden veranderd.
    Dat is nog wat andere stuff dan vanuit niets een heel nieuw verhaal uitspreken.
    Lastig lijkt me dat; zelfs als je al 20 min. opnamen van de betreffende stem hebt.

    Hoe ik Siri hierin moet zien weet ik ook niet.

    Enfin, we wachten de ontwikkelingen af.
    Wel interessant dit.