Hilo oficial sobre los sintetizadores de voz

4106 mensajes, 137 páginas: 1…; 119 120121 122 123…; 137 ↖ Volver a la lista de temas

Resultado: +40

3601. pianino.64, 11.07.2023 18:08:22

listo guardado.
pero quiero saber una cosa?.
cuanto tarda un modelo en entrenarse?.
por ejemplo con mis configuraciones como cuando hago un modelo de voce to voice, .
cuánto me toma un modelo de 250 epochs?.

Resultado: +0

3602. Braille_and_Speak2000, 11.07.2023 18:45:04

menos mal tenés las 3 versiones de la voz de Oriol, me encantan las 3 y se nota la diferencia entre ambas.

Resultado: +0

3603. pianino.64, 11.07.2023 19:02:31

yo me baje la voz del narrador, ha mejorado mucho el performance con la actualización del complemento, puedo leer ahora texos largos con el comando.
seria buenísimo que piper este disponible también para Sapi 5, para usarlo en balabolca

Resultado: +0

3604. El_oso_manzanoso, 11.07.2023 19:12:46

alguien pasa demo de esa voz?

Resultado: +0

3605. Zagreus, 11.07.2023 19:48:31

pero no entiendo. las voces son malas, medianamente desentes o ya sí desentes del todo?

Resultado: +0

3606. pianino.64, 11.07.2023 21:01:56

son, aceptables.
alguien se tomo el atrevimiento de hacer un dataset de la voz de locutor de eleven labs, y esa se llamo narrador, esa es la que he probado y no esata mal, pero podría mejorar.

Resultado: +0

3607. Braille_and_Speak2000, 11.07.2023 21:08:18

Por mientras tanto, acá les comparto el repo de Bark, un sinte que también es como un GPT pero de TTS. a ver si se puede hacer algo para NVDA con este. https://github.com/suno-ai/bark

Resultado: +0

3608. pianino.64, 11.07.2023 21:10:46

bark, que malo es!.
tratan de abarcar todo y a veces abarcar todo no es bueno.
un sinte que intenta reir, que intenta cantar, y encima te pone mmuúsica, pero todo de la peor calidad.
su limitación de generación de texto de 14 segundos es una risa.
y todavía no es posible clonar voz par bark.

Resultado: +0

3609. Braille_and_Speak2000, 11.07.2023 21:54:36

Encontré un fork que te permite clonar tu voz para Bark pero no lo tengo a la mano, aunque sí. Así como está, se re fueron al carajo y me imagino que nuestra voz se haría irreconocible de todas maneras. Pero bueno, oí que también puede funcionar en CPU así que me gustaría a ver si se logra hacer algo para andarlo con NVDA, aunque sea así de feo. icen que detecta si lo usamos en otros idiomas, pero yo probé en un colab y hasta el texto en español me lo leía en inglés.

Resultado: +0

3610. pianino.64, 11.07.2023 22:52:49

no se ccual era el comando pero ami nome gusto como opera bark, te pone una música mal sampleada con el texto que escribiste,a mi si me leia en español por que le puse el lenguaje español

Resultado: +0

3611. criseduas, 11.07.2023 23:27:05

Al fin valió la pena la espera! RVC está implementando el soporte de RMVPE (Modelo de estimación del tono vocal en música polifónica) ya solo con eso si realmente es tal como se indica, será muchísimo mejor que crepe.

Resultado: +0

3612. pianino.64, 11.07.2023 23:34:02

que si el algoritmo acepta notas polifónica, estamos hechos, seria de ver que tal lo hace

Resultado: +0

3613. Braille_and_Speak2000, 12.07.2023 00:40:05

rmcpantoja, me encantan las 3 versiones de la voz de Oriol que tenés, me intriga. (Yo me voy a hacer una copia de seguridad porque me gustan demasiado) Las entrenaste usando diferentes archivos de audios, o diferentes horas de entrenamiento? es que incluso me encanta cuando de repente la voz de Oriol se puede inestabilizar y se pone a levantar el tono de la nada, jajaja! Y luego, son audios de todos los juegos, El Tito Uri Comentarista y los audios de sus demás juegos? porque cuando leo un texto más largo suena como en el antiguo beatstar Pro cuando escuchábamos las instrucciones de lso minijuegos, por ejemplo, y en alguna cosita me recuerda un poco al lanzamiento de penaltis, doble o nada, por ahí algo de cómo tiene la voz en jugar para ganar... Re completo.
si para la voz de narrador usaste creo que Adam de ElevenLabs, te animás a hacerlo con la voz de Bella y con estabilidad en 0? Me encanta como suena, o también Elly me encanta.

Resultado: +0

3614. El-Megalovano, 12.07.2023 06:42:53

Yo estoy pensando en hacer las siguientes voces para Piper.
1: Quizá egocentrista pero preferiría mi voz en el sinte. Prové con ElevenLabs y me sonó como si yo iva a tener 25 años o algo ansina!
2: Quizá las voces Loquendo (ahora Cerence).
3: Quizá alguna síntesis por formantes como lo son Eloquence, KeynoteGold, DECtalk, hasta MacinTalk.

Resultado: +0

3615. Willem, 12.07.2023 17:46:11

oigan, saliendo un poco del tema. La demo de azure tts de Microsoft ya no funciona? no he conseguido usarla nuevamente. Solo con el conversor en línea de balabolka, pero ya no desde la web

Resultado: +0

3616. pianino.64, 12.07.2023 18:19:51

oigan, me dio curiosidad de crear voces nuevas para e speack ng, me gustaría saber si es posible, con que probrama lo hago?, y como puedo crear una variante o voz nueva para e speack ng

Resultado: +0

3617. Loba_Espacial, 13.07.2023 12:22:50

Posteo a petición de pianino.

Resultado: +0

3618. pianino.64, 13.07.2023 13:43:07

graciasloba, pero lo que tenia que preguntar ya se lo pregunte al indicado igual gracias por subir hilo asi se quitan las malas energias de ayer

Resultado: +0

3619. kirito, 13.07.2023 15:35:46

Pianino, toda la documentación para crear voces en espeak está en su página oficial.
O al menos eso entendí de cuando le heché un vistazo

Resultado: +0

3620. Yostein-san, 14.07.2023 04:09:00

He probado el sintesisador neuronal de Piper.
He de decir que probé la voz de Orion original. Aparte del obvio retardo de respuesta en cada linea que da, tiene un tono y forma de hablar que parece que estoy hablando con un presentador de concursos con maña de imitar la voz arrastrada de Draco Malfoy.
Es... curioso pero interesante, esperamos que en un futuro puedan el desarrollo mejorar la velocidad de respuesta, no velocidad de habla que es otra cosa distinta.

Resultado: +0

3621. Braille_and_Speak2000, 14.07.2023 12:58:18

Sí, eso mismo me dio la idea de recrear la voz del que era Pedro de Innoetics. es que por lo visto nunca sabemos lo que va a generar la IA. Por ahí a lo largo de lo que vamos usándolo podemos hacernos una idea de dónde a a levantar más el tono y dónde no (aunque también dependería un poco de cada voz o de su entrenamiento) pero sigue siendo impredecible.

Resultado: +0

3622. Willem, 14.07.2023 14:50:23

La voz de pedro de imnoetics, si no me equivoco fue creada a partir de un audiolibro gratuito que distribuyó el gobierno de Aragón en su página. Es el ingenioso Hidalgo Don Quijote de La Mancha. El locutor es Jesús algo, no recuerdo su apellido. Estoy buscando el libro en la web, pero no he tenido suerte. Igual, como yo lo tengo, subí unos capítulos a mi Drive para que le echen un vistazo si quieren. Tal vez podemos usar el mismo modelo para recrear la voz, no sé si eso se pueda. https://drive.google.com/file/d/1Rv51ByW48mkxziNSd6httP-YfIFTiEfa/view?usp=drivesdk

Resultado: +0

3623. pianino.64, 14.07.2023 16:04:14

estoy tratando de clonar mi primera voz en piper, pero he muerto en el intento, voy a ver si esta vez lo intento de nuevo

Resultado: +0

3624. Braille_and_Speak2000, 14.07.2023 17:27:07

Hola, Willem. Encontré el ajdiolibro completo. Acá está. El inconveniente qje tengo yo es qje njnca logré aprender a editar ajdio y claro, acá estaría haciendo archivos y archivos wav de hasta 15 segjndos. Pero bjeno, acá: https://www.dropbox.com/sh/x8kowqvmhvygqpq/AACRodayRPHO-pv_F3X4_C4ta

Resultado: +0

3625. Willem, 14.07.2023 18:12:51

Gracias, yo el audiolibro lo tengo completo también, aunque en mi disco duro. Como no tengo ni idea de la creación, el entrenamiento ni el manejo de las voces neurales no le puedo mover. Igual es excelente que esté el audiolibro en la nube, chance y alguien se anima. Edición de audio sí sé, pero tampoco soy precismanete un experto jajajaa.

Resultado: +0

3626. El-Megalovano, 16.07.2023 17:38:36

No se si es posible, pero ya estoy entrenando mi voz. Cuanto tiempo en total duraría un entrenamiento? Me salen los mismos mensajes de depuración de tipo DEBUG:fsspec.local:open file: /content/drive/MyDrive/colab/piper/nombre de voz/lightning_logs/version_tal/checkpoints/last.ckpt.

Resultado: +0

3627. Ideafix, 17.07.2023 20:33:07

hola: oigan, creo que no lo comentaron en ningun lado, pero bueno... al parecer las voces ctv vocalizer de codefactory en android ya no estan disponibles para descargar, solamente para quienes hayan comprado alguna voz. pensaba que no era posible, pero hice algunas pruebas, y definitivamente al intentar descargar la app en android aparece el mensaje de que la app no es compatible con el dispositivo. Por supuesto, yo tengo voces compradas y sí puedo instalar la app en mi teléfono, pero lo probé con otro que tiene el mismo android pero con otra cuenta, y no se puede.

Resultado: +0

3628. rmcpantoja, 17.07.2023 22:53:41

¡Buenas!
El dataset de Oriol contiene solo 24 minutos de corpus, 126 archivos de una duración de entre 4 y 15 segundos, de juegos (en su mayoría beatstar pro y cosas extra como algunos mensajes del día), entrenadas durante cuatro horas, aunque puedo entrenarlas por más para reducir los crujidos de audio.
Siempre recomiendo aprovechar las seis horas gratuitas que te ofrece colab por sesión para entrenar Piper, aunque hay que tener en cuenta que al concluir las primeras tres horas aparecerá un cartel al final de la página para verificar la casilla de que no estás ausente.
Hay un sistema TTS, ForwardTacotron, el cual es más eficiente en referente a tono, entonación y energía, por lo que además permite manipular ambos factores, al igual que la velocidad. Por el momento no es de extremo a extremo como VITS o Piper, pero obtienes buenos resultados entrenando un vocoder para sintonizar el audio de los espectrogramas del modelo. Actualmente llevo entrenando a Oriol usando ForwardTacotron e HiFi-GAN, y es posible que comparta algunos resultados.

Hice un complemento de ForwardTacotron para NVDA, pero no es muy estable y tengo que solucionar muchas cuestiones como la comunicación del complemento con el sintetizador.
Yo podría animarme en cuanto a la voz de Pedro, al menos en el procesamiento de audios, la mitad de lo que sería el formato LJSpeech. Las transcripciones se tratarían de algo colaborativo entre más personas.
La cuestión es que no es posible descargar el libro completo.
"Detectamos una actividad sospechosa: demasiadas descargas en un día. Solicítale al propietario que cree un vínculo nuevo."

Resultado: +0

3629. Willem, 19.07.2023 03:08:45

el audiolibro contiene si no mal recuerdo más de 70 capítulos. Todos son necesarios para el entrenamiento de la voz? yo los puedo subir a drive, pero mi internet no es tan bueno, tomará algo de tiempo; por eso preguntaba cuánto se necesita aprox.

Resultado: +0

3630. pianino.64, 19.07.2023 05:47:33

me gustaría saber como actuará piper con el famoso dataset de libreivox?.
es un dataset de 14 gb, y en su parte de español son 4 gb de varios hablantes.
como será entrenar tremendo dataset para piper?

Resultado: +0

4106 mensajes, 137 páginas: 1…; 119 120121 122 123…; 137 ↖ Volver a la lista de temas

Ir a los menús ↑
Ir al contenido ↑

Responder al tema

Usted debe estar conectado para poder postear.