IA de voz

Proporciona interfaces basadas en voz para tus aplicaciones de IA conversacional.

Ventajas
Casos de uso
oluciones
Avances
Recursos

Ventajas
Casos de uso
oluciones
Avances
Recursos

¿Qué es la IA de voz?

La IA de voz permite conversar con dispositivos, máquinas y ordenadores con el fin de simplificar y mejorar la vida de las personas. Se trata de un subconjunto de la IA conversacional que incluye el reconocimiento de voz automático (ASR) y la conversión de texto a voz (TTS) con el objetivo de convertir la voz en texto y generar una voz similar a la humana a partir de palabras escritas, lo que hace posible el desarrollo de potentes aplicaciones como asistentes virtuales, transcripciones en tiempo real y búsquedas por voz dirigidas por large language models (LLMs) y retrieval-augmented generation (RAG)

Las ventajas de usar la IA de voz.

Precisión de primer nivel.

Convierte las experiencias de tus clientes en excepcionales con la mejor precisión de su clase que se logra con la personalización del modelo de IA de voz.

Soporte para varios idiomas.

Amplía tu base de clientes ofreciendo aplicaciones basadas en voz en los idiomas que hablan tus clientes.

Alto rendimiento y escalabilidad.

Sirve a más clientes con aplicaciones de baja latencia y alto rendimiento que pueden escalar al instante en cualquier infraestructura: en las instalaciones, en la nube, en el perímetro o integrado.

Una voz natural única para tu marca.

Da un impulso a tu servicio de atención al cliente al ofrecer interacciones rápidas y significativas con la voz única de tu marca.

Libro electrónico gratuito: creación de aplicaciones de IA de voz

Aprende a crear e implementar canalizaciones de IA de voz en tiempo real para tu aplicación de IA conversacional.

Descargar libro electrónico

Sesiones de la GTC 2024

La IA de voz desmitificada

Descubre cómo las tecnologías de IA de voz, como el reconocimiento automático de voz y la conversión de texto a voz, automatizan millones de conversaciones hoy en día.

Ver bajo demanda

Día del desarrollador de IA de voz y generativa

Aprende a usar la IA de voz y de traducción con modelos de lenguaje de gran tamaño (LLM) y aplicaciones de generación aumentada de recuperación (RAG) para transformar los chatbots en potentes asistentes virtuales y avatares multilingües.

Ver bajo demanda

Transformar los contenidos multimedia multilingües con IA de voz

Aprende a añadir subtítulos y doblaje en un idioma específico con el reconocimiento de voz, la conversión de texto a voz y la traducción de NVIDIA® Riva.

Ver bajo demanda

Cómo se utiliza la IA de voz.

Transcribe a varios oradores a la vez.

Los algoritmos de voz a texto modernos transcriben reuniones, conferencias y conversaciones sociales al mismo tiempo que se identifican los oradores y se etiquetan sus contribuciones. Con las tecnologías IA de voz y los SDK de NVIDIA Riva, puedes crear transcripciones precisas para conversaciones del centro de llamadas y reuniones por videoconferencia o automatizar la toma de notas clínicas durante las interacciones médico-paciente.

NVIDIA Riva: crea tu propia aplicación de IA de voz

Haga que sus asistentes sean virtuales y superinteligentes

Los asistentes virtuales multilingües se comunican con los usuarios a través de una interfaz de voz para ayudarles en diversas tareas, desde la resolución de problemas de los clientes en los centros de atención telefónica hasta el encendido del televisor en calidad de asistente doméstico inteligente o el desplazamiento hasta la gasolinera más cercana a modo de asistente inteligente en el automóvil. Cree asistentes virtuales y chatbots superinteligentes basados en LLM y RAG, o aproveche NVIDIA Avatar Cloud Engine (ACE) para integrar la IA de voz y traducción de NVIDIA en sus aplicaciones de avatar y disfrutar de interacciones interesantes en muchos idiomas.

Descubra el chatbot de IA con RAG Desarrolle e implemente avatares interactivos con NVIDIA ACE

Marca tu voz.

Con una voz de marca reconocible, las empresas pueden crear aplicaciones que creen relaciones con los clientes al mismo tiempo que respaldan a todos los clientes, incluidos aquellos con déficit de voz y lenguaje. Con NVIDIA Custom Voice, parte de la IA de voz, puedes crear fácilmente una personalidad de voz única y de alta calidad para tu marca en horas en lugar de semanas y con tan solo 30 minutos de datos de voz grabados.

Preguntas y respuestas naturales y expertas con NVIDIA Omniverse ACE para Project Tokkio

Desarrolla interfaces de IA de voz personalizables.

Acorta el entrenamiento mediante el uso de modelos entrenados previamente.

Los sistemas de IA de voz modernos utilizan modelos de redes neuronales profundas (DNN) entrenados en conjuntos de datos masivos. Con el tiempo, el tamaño de los modelos de IA de voz ha crecido tanto que el entrenamiento de estos modelos puede llevar semanas de tiempo de computación intensivo, incluso cuando se utilizan entornos de trabajo de deep learning, como PyTorch, TensorFlow y MXNet, en GPU de alto rendimiento.

IA de voz de NVIDIA ofrece modelos entrenados previamente y de calidad de producción en el catálogo de NVIDIA NGC™ que se entrenan en varios conjuntos de datos públicos y patentados durante más de cientos de miles de horas en sistemas NVIDIA DGX™.

Más información sobre los modelos previamente entrenados de NVIDIA

Figura 1: Modelos entrenados previamente muy precisos.

Figura 2: Flujo de trabajo completo del kit de herramientas TAO.

Personaliza los modelos para una mayor precisión.

Muchas empresas tienen que personalizar los modelos de IA de voz para lograr la precisión deseada para sus aplicaciones conversacionales específicas. Sin embargo, personalizar los modelos de IA de voz desde cero suele requerir grandes conjuntos de datos de entrenamiento y experiencia en IA.

Para acelerar el desarrollo y personalizar al máximo los modelos de voz sin una experiencia previa de IA, puedes usar el kit de herramientas NVIDIA TAO, un kit de herramientas de desarrollo de modelos de IA de poco código. Aplica un enfoque de aprendizaje de transferencia probado a un modelo entrenado previamente y ajusta los modelos de IA de voz para tu caso de uso. NVIDIA también ofrece NeMo, un kit de herramientas de código abierto para que los investigadores construyan modelos de IA de voz de última generación (SOTA). Los modelos optimizados con NeMo y el kit de herramientas TAO se pueden exportar e implementar fácilmente en NVIDIA® Riva en las instalaciones o en la nube como servicio de voz.

Descarga este libro electrónico para empezar con la IA de voz personalizable

Logra interacciones naturales desarrollando habilidades en tiempo real.

Para las habilidades de IA de voz, las empresas siempre han tenido que elegir entre precisión y rendimiento en tiempo real. Por ejemplo, no pueden hacer una pregunta y, a continuación, esperar varios segundos para obtener una respuesta. Además, no quieren que sus aplicaciones de IA conversacional se malinterpreten o produzcan galimatías.

Con NVIDIA Riva, las empresas pueden lograr una precisión de primer nivel y ejecutar sus canalizaciones de IA de voz en tiempo real, en menos de unos milisegundos. Riva ofrece modelos SOTA entrenados previamente en NGC, herramientas de código bajo como el kit de herramientas TAO para ajustar a fin de lograr una precisión de primer nivel y habilidades optimizadas para un rendimiento en tiempo real.

Descubre cómo las empresas han implantado Riva en producción

Figura 3: Capacidades de habilidades de IA de voz de NVIDIA Riva.

Explora los últimos avances en IA de voz.

La IA de voz se vuelve multilingüe.

Las aplicaciones y canalizaciones de IA de voz deben comprender varios idiomas, dialectos y acentos que se implementarán en todo el mundo. Por ejemplo, las personas en los Estados Unidos y la mayoría de los otros países hablan diferentes idiomas. En casos de uso como los centros de llamadas, hay veces en las que un cliente utiliza más de un idioma para describir lo que está pasando. El siguiente paso es tener aplicaciones de IA de voz que puedan manejar estas situaciones.

Los desarrolladores pueden usar modelos de voz independientes para cada idioma o un solo modelo que pueda manejar más de un idioma. Obtén más información en la página Colecciones de reconocimiento de voz sobre modelos ASR en diferentes idiomas.

Llevar la IA de voz de la nube al dispositivo.

Cuando las empresas empezaron a usar la IA de voz, todo el mundo usaba los servicios en la nube porque son fáciles de configurar y usar. Poco a poco, las empresas comenzaron a cambiar a soluciones locales para evitar problemas de privacidad con sus datos. Ahora, las soluciones en el dispositivo son el último avance, no solo para mantener los datos privados, sino también para una inferencia más rápida y reducir costes.

NVIDIA Riva permite que las aplicaciones se implementen en entornos integrados, de centro de datos y en la nube para desarrollar interfaces de IA de voz personalizables para tu aplicación de IA conversacional.

Comience con la IA del habla

Empiece a utilizar los flujos de trabajo de la IA de voz

Acelere el tiempo de desarrollo con flujos de trabajo de IA empaquetados, que incluyen marcos de IA de NVIDIA y modelos previamente entrenados, junto con recursos como gráficos Helm, Jupyter Notebooks y documentación para ayudarle a poner en marcha la creación de soluciones de IA.

Más información sobre el flujo de trabajo de transcripción de audio

Más información sobre el chatbot de IA con flujo de trabajo de RAG

Start Developing With Containers and Models

Aunque las implementaciones a gran escala requieren la compra de NVIDIA Riva, NVIDIA también ofrece de forma gratuita una serie de contenedores, modelos y herramientas de personalización.

Descubra los contenedores, los modelos previamente entrenados y la implementación con Riva

Cree sus propios modelos con NeMo

Accede a recursos educativos.

Presentamos la IA de habla

Comprende los conceptos principales de la IA de voz y cómo crear e implementar aplicaciones de tecnología de voz.

Leer los libros electrónicos sobre IA de voz

Desmitificar la IA conversacional.

Aprende a añadir IA de voz a aplicaciones de IA conversacional y a personalizarla en el tiempo de entrenamiento e inferencia.

Ver la sesión de la GTC sobre la IA conversacional desmitificada

Explora los blogs de IA de voz.

Descubre qué es la IA de voz, cómo ha cambiado a lo largo del tiempo, sobre sus componentes clave, desafíos y casos de uso, y sobre los SDK de IA de voz de NVIDIA.

Leer los blogs de IA de voz

Echa un vistazo más cerca a NVIDIA Riva.

Comprende las características clave de NVIDIA Riva que te pueden ayudar a crear servicios de IA de voz.

Leer el blog introductorio de NVIDIA Riva

Regístrate para recibir las últimas noticias de NVIDIA sobre IA de habla.

Registrarse