La IA es solamente una herramienta. Si vas a usarlo para ilustrar, crear voice over o canciones sin saber como funcionan esas artes entonces el resultado será mal y te perderás en un océano de hacks que pretenden crear "arte" tercerizando el proceso creativo a un software.
Respondiendo a tu pregunta la horda de Stabble Diffusion
https://stablehorde.net/
Hay bastante estado del arte y tienen un Discord dotextos, no nde puedes preguntar si no entiendes como hostear localmente o puedes usar la horda (que son contribuidores voluntarios prestando sus GPUs) en linea. FOSS OR DIE, cualquier opción que no sea FOSS está condenada a ser una porquería. Referente a text to speech la única opción que conozco es:
https://stablehorde.net/
Que tiene varias voces en español. Sé que también hay modelos FOSS pero no me tomé la molestia de investigar, recuerdo que uberduck y 15.ai solía tener muy buenas voces, pero el primero está paywalleado y el otro ya pasó a mejor vida.
De música no tengo i idea.