Entrada

Autoniche AI - Selección Tecnológica

Autoniche AI - Selección Tecnológica

1. Introducción

Este documento detalla el proceso de selección de tecnologías para Autoniche AI, un sistema automatizado de creación y publicación de contenido de vídeo. Se describen los componentes principales del sistema, el flujo de trabajo, las tecnologías evaluadas y las decisiones finales.

Dado que los modelos están en continua actualización y mejora, las selecciones de este post sólo se deben tomar como referencia y los modelos que se utilizarán se decidirán cuando realmente se comience el desarrollo del módulo donde se necesiten.

Si necesitas ver que modelos hay y cual se ajusta mejor a tus necesidades puedes consultar LLM Stats o Artificial Analysis.

2. Arquitectura del Sistema

  • Componentes Principales:

    ComponenteDescripciónTecnologías Clave
    Entrada de DatosGeneración de ideas para contenido.LLM local (Mixtral 8x7B, Mistral 7B, Phi-2), Google Sheets/Bases de Datos
    Procesamiento de ContenidoCreación de guiones, subtítulos, descripciones y síntesis de voz.LLM (Mixtral 8x7B), NLP, F5 TTS
    Producción de VídeoGeneración y edición de clips de vídeo.Stable Video Diffusion, ModelScope, FFmpeg, Rife AI
    Publicación y MonetizaciónDetección de momentos virales, generación de shorts y publicación automática.Whisper AI, FFmpeg, n8n, APIs (YouTube, TikTok, Instagram)
  • Tecnologías Seleccionadas:

    MóduloTecnología / HerramientaJustificación
    Generación de IdeasMixtral 8x7B (prioridad), Mistral 7B/Phi-2 (alternativas), LLama 2Alto rendimiento, eficiencia, versatilidad.
    Generación de GuionMixtral 8x7BExcelente coherencia y creatividad.
    Síntesis de Voz (TTS)F5 TTSAlta calidad de voz y personalización.
    Generación de ClipsStable Video Diffusion/ModelScopeCalidad visual y adaptabilidad.
    Edición y EnsamblajeFFmpeg + Rife AIEficiencia y mejora de calidad.
    Detección de Momentos ViralesWhisper AIPrecisión en la detección.
    Generación de ShortsFFmpegRecorte automático eficiente.
    Publicación Automátican8nAutomatización flexible y sin código.
    Bases de datosPostgreSQL/MongoDB/ChromaDBAlmacenamiento eficiente de datos y embeddings.
    Gestión de modelos de IAOllama, LMStudio, Hugging FaceFacilidad de gestión y acceso a modelos.

3. Infraestructura de Software

  • Sistema Operativo:
    • Windows 11 (evaluar rendimiento en Linux para optimización).
  • Orquestación:
    • n8n (automatización de flujos de trabajo).
  • Gestión de Modelos:
    • Ollama, LMStudio, Hugging Face (administración y despliegue de modelos).
  • Bases de Datos:
    • PostgreSQL/MongoDB (almacenamiento de datos estructurados y no estructurados).
    • ChromaDB (gestión de embeddings para LLMs).

4. Proceso de Evaluación

  • Criterios Clave:
    • Rendimiento (velocidad, eficiencia).
    • Calidad (precisión, naturalidad).
    • Flexibilidad (personalización, integración).
    • Costo (licencias, hardware).
    • Comunidad y soporte.
  • Metodología:
    • Pruebas comparativas de modelos LLM (rendimiento, calidad).
    • Evaluación de calidad de TTS (naturalidad, claridad).
    • Análisis de rendimiento de herramientas de vídeo (eficiencia, calidad).
    • Pruebas de flujos de trabajo en n8n (fiabilidad, eficiencia).

5. Decisiones y Justificación

  • LLM Local:
    • Mixtral 8x7B: rendimiento superior en tareas creativas y de razonamiento.
    • Mistral 7B y Phi-2: alternativas eficientes para recursos limitados.
    • LLama 2: gran versatilidad.
  • TTS:
    • F5 TTS: calidad de voz excepcional y opciones de personalización.
  • n8n:
    • Automatización flexible y sin código, ideal para integrar diferentes servicios.
  • ChromaDB:
    • Mejora significativa del rendimiento de los LLM locales mediante la gestión eficiente de embeddings.

6. Plan de Implementación

  • Fase 1:
    • Configuración de infraestructura (hardware, SO, n8n).
    • Instalación y configuración de LLMs locales.
    • Integración de ChromaDB y bases de datos.
  • Fase 2:
    • Desarrollo de flujos de trabajo en n8n.
    • Integración de TTS y herramientas de vídeo.
    • Pruebas y optimización de rendimiento.
  • Fase 3:
    • Implementación de publicación automática y monitorización.
    • Pruebas exhaustivas y ajustes finales.

7. Consideraciones Finales

  • Mantenimiento y actualización continua de modelos y herramientas.
  • Pruebas A/B para optimización de contenido y formatos.
  • Seguimiento de avances en IA y producción de vídeo para mejoras futuras.
Esta entrada está licenciada bajo CC BY 4.0 por el autor.