Són bones o dolentes aquestes veus d'audiollibres d'IA súper impressionants?

Taula de continguts:

Són bones o dolentes aquestes veus d'audiollibres d'IA súper impressionants?
Són bones o dolentes aquestes veus d'audiollibres d'IA súper impressionants?
Anonim

Clau per emportar

  • DeepZen utilitza IA (intel·ligència artificial) per crear audiollibres sorprenentment realistes a partir de text.
  • La tecnologia utilitza actors de veu humans reals per proporcionar els elements bàsics.
  • Amazon i Audible actualment no accepten audiollibres generats per ordinador.
Image
Image

DeepZen és una empresa que crea veus d'ordinador utilitzades en audiollibres, a partir de les veus reals d'actors humans. La qualitat és aterridora, prou bona per escoltar-la durant hores alhora. El truc aquí és el component d'IA (intel·ligència artificial), que pot llegir el text i inferir la resposta emocional correcta en funció del context. Després posa aquesta emoció a la veu.

És impressionant i molt còmode. Però realment volem una experiència d'audiollibres homogeneïtzada? I què passa amb aquests actors de veu?

"Des del punt de vista de l'editor independent, qualsevol cosa que redueixi el cost de la producció d'audiollibres és molt interessant", va dir Rick Carlile, propietari de l'editor independent Carlile Media, a Lifewire per correu electrònic.

"Però aquesta atracció suposa que el producte tindria la mateixa qualitat que la narració tradicional. Crec que encara no hi estem al cent per cent. No m'equivoquis, DeepZen és sorprenentment bo. És un un gran avenç i els seus creadors mereixen un immens elogi i èxit. Però encara no és perfecte."

Àudio que és "prou bo"

La millor manera d'entendre la qualitat de DeepZen és escoltar les mostres. Si no sabíeu que eren generats per ordinador, potser ni tan sols us adoneu. De totes maneres no per un temps. Suposem que l'IA de DeepZen és perfecta i que mai interpreta malament les notes emocionals que se suposa que ha de colpejar.

Image
Image

Tot i així, un humà pot oferir interpretacions més matisades i sovint més sorprenents. Un actor podria donar un gir inesperat a les paraules que un ordinador ni tan sols consideraria. I, en realitat, la interpretació de l'IA segurament encara no és tan bona com la d'un actor de veu professional.

"Com a qui treballa en pel·lícules i, més recentment, en el món de la narració d'àudio, tot i que estic impressionat amb l'IA, sé amb certesa que hi ha un significat profund que una màquina no pot interpretar", veu professional. l'actor Paul Cram ho va dir a Lifewire per correu electrònic.

"Hi haurà un augment d'autors desconeguts que l'utilitzin? Us garanteixo que hi haurà perquè és "prou bo"."

Ser prou bo, combinat amb la comoditat i l'estalvi de costos, pot ser suficient per impulsar els editors independents al servei.

"Els audiollibres poden costar fins a 500 dòlars per hora d'àudio acabada (molt més per a una veu de celebritats), i això no inclou el cost del temps de gestió i administració", diu Carlile. "Poder reduir aquest cost a la meitat simplement penjant un manuscrit a un proveïdor com DeepZen és molt atractiu."

Talking Trouble

Encara no és tan fàcil com acomiadar els teus actors de veu i penjar manuscrits a DeepZen. Actualment hi ha una barrera per a una fàcil oració amb intel·ligència artificial dels audiollibres, i és d'Amazon.

Image
Image

"Actualment, ACX, la ruta de l'autoeditor cap a la distribució d'audiollibres d'Amazon i Audible, no acceptarà audiollibres que un humà no hagi gravat", diu Carlile.

Per què? Qualitat. Aquí teniu l'entrada de preguntes freqüents del lloc web:

"No es permeten enregistraments de text a veu ni altres enregistraments automatitzats. Els oients audibles trien els audiollibres per a la interpretació del material, així com la història. Per satisfer aquesta expectativa, el vostre audiollibre ha de ser gravat per un humà."

Això vol dir que els audiollibres generats per DeepZen estan fora, almenys de moment. Això és pura especulació, però DeepZen semblaria una adquisició força bona per a Amazon, deixant-li vendre el servei i mantenir-lo només per a llibres Audible. I encara que això no succeeixi, si la qualitat dels audiollibres generats per ordinador és tan bona com aquesta, sembla que no hi ha cap motiu per no fer una excepció a aquesta regla.

T'agradaria escoltar audiollibres fets d'aquesta manera? Quan passi, la majoria de la gent ni tan sols sospitarà. Alguns poden preferir la perfecció de les veus generades per ordinador perquè estaran lliures dels tics i hàbits vocals que de vegades poden distreure. La tecnologia també és adequada per a videojocs, anuncis de televisió i ràdio, i qualsevol altre escenari on contracteu un actor de veu.

La tecnologia de DeepZen també seria una manera fantàstica de crear automàticament podcasts de notícies a partir d'articles escrits, cosa que podria ser útil per als desplaçaments diaris.

I què passa amb aquests actors de veu? Bé, hi haurà almenys una oportunitat: poden anar a treballar a DeepZen.

Recomanat: