IA de voz

Proporciona interfaces basadas en voz para tus aplicaciones de IA conversacional.


¿Qué es la IA de voz?

La IA de voz permite conversar con dispositivos, máquinas y ordenadores con el fin de simplificar y mejorar la vida de las personas. Se trata de un subconjunto de la IA conversacional que incluye el reconocimiento de voz automático (ASR) y la conversión de texto a voz (TTS) con el objetivo de convertir la voz en texto y generar una voz similar a la humana a partir de palabras escritas, lo que hace posible el desarrollo de potentes aplicaciones como asistentes virtuales, transcripciones en tiempo real y búsquedas por voz dirigidas por large language models (LLMs) y retrieval-augmented generation (RAG)  

Las ventajas de usar la IA de voz.

Precisión de primer nivel.

Convierte las experiencias de tus clientes en excepcionales con la mejor precisión de su clase que se logra con la personalización del modelo de IA de voz.

Soporte para varios idiomas.

Amplía tu base de clientes ofreciendo aplicaciones basadas en voz en los idiomas que hablan tus clientes.

Alto rendimiento y escalabilidad.

Sirve a más clientes con aplicaciones de baja latencia y alto rendimiento que pueden escalar al instante en cualquier infraestructura: en las instalaciones, en la nube, en el perímetro o integrado.

Una voz natural única para tu marca.

Da un impulso a tu servicio de atención al cliente al ofrecer interacciones rápidas y significativas con la voz única de tu marca.

Libro electrónico gratuito: creación de aplicaciones de IA de voz

Aprende a crear e implementar canalizaciones de IA de voz en tiempo real para tu aplicación de IA conversacional.

Sesiones de la GTC 2024

La IA de voz desmitificada 

Descubre cómo las tecnologías de IA de voz, como el reconocimiento automático de voz y la conversión de texto a voz, automatizan millones de conversaciones hoy en día.

Día del desarrollador de IA de voz y generativa

Aprende a usar la IA de voz y de traducción con modelos de lenguaje de gran tamaño (LLM) y aplicaciones de generación aumentada de recuperación (RAG) para transformar los chatbots en potentes asistentes virtuales y avatares multilingües.

 

Transformar los contenidos multimedia multilingües con IA de voz

Aprende a añadir subtítulos y doblaje en un idioma específico con el reconocimiento de voz, la conversión de texto a voz y la traducción de NVIDIA® Riva.

Cómo se utiliza la IA de voz.

Multi-Speaker Transcription

Transcribe a varios oradores a la vez.

Los algoritmos de voz a texto modernos transcriben reuniones, conferencias y conversaciones sociales al mismo tiempo que se identifican los oradores y se etiquetan sus contribuciones. Con las tecnologías IA de voz y los SDK de NVIDIA Riva, puedes crear transcripciones precisas para conversaciones del centro de llamadas y reuniones por videoconferencia o automatizar la toma de notas clínicas durante las interacciones médico-paciente.

Virtual Assistant Applications

Haga que sus asistentes sean virtuales y superinteligentes

Los asistentes virtuales multilingües se comunican con los usuarios a través de una interfaz de voz para ayudarles en diversas tareas, desde la resolución de problemas de los clientes en los centros de atención telefónica hasta el encendido del televisor en calidad de asistente doméstico inteligente o el desplazamiento hasta la gasolinera más cercana a modo de asistente inteligente en el automóvil. Cree asistentes virtuales y chatbots superinteligentes basados en LLM y RAG, o aproveche NVIDIA Avatar Cloud Engine (ACE) para integrar la IA de voz y traducción de NVIDIA en sus aplicaciones de avatar y disfrutar de interacciones interesantes en muchos idiomas.

NVIDIA Custom Voice

Marca tu voz.

Con una voz de marca reconocible, las empresas pueden crear aplicaciones que creen relaciones con los clientes al mismo tiempo que respaldan a todos los clientes, incluidos aquellos con déficit de voz y lenguaje. Con NVIDIA Custom Voice, parte de la IA de voz, puedes crear fácilmente una personalidad de voz única y de alta calidad para tu marca en horas en lugar de semanas y con tan solo 30 minutos de datos de voz grabados.

Desarrolla interfaces de IA de voz personalizables.

Acorta el entrenamiento mediante el uso de modelos entrenados previamente.

Los sistemas de IA de voz modernos utilizan modelos de redes neuronales profundas (DNN) entrenados en conjuntos de datos masivos. Con el tiempo, el tamaño de los modelos de IA de voz ha crecido tanto que el entrenamiento de estos modelos puede llevar semanas de tiempo de computación intensivo, incluso cuando se utilizan entornos de trabajo de deep learning, como PyTorch, TensorFlow y MXNet, en GPU de alto rendimiento.

IA de voz de NVIDIA ofrece modelos entrenados previamente y de calidad de producción en el catálogo de NVIDIA NGC™ que se entrenan en varios conjuntos de datos públicos y patentados durante más de cientos de miles de horas en sistemas NVIDIA DGX™.

Figura 1: Modelos entrenados previamente muy precisos.

Figura 2: Flujo de trabajo completo del kit de herramientas TAO.

Personaliza los modelos para una mayor precisión.

Muchas empresas tienen que personalizar los modelos de IA de voz para lograr la precisión deseada para sus aplicaciones conversacionales específicas. Sin embargo, personalizar los modelos de IA de voz desde cero suele requerir grandes conjuntos de datos de entrenamiento y experiencia en IA.

Para acelerar el desarrollo y personalizar al máximo los modelos de voz sin una experiencia previa de IA, puedes usar el kit de herramientas NVIDIA TAO, un kit de herramientas de desarrollo de modelos de IA de poco código. Aplica un enfoque de aprendizaje de transferencia probado a un modelo entrenado previamente y ajusta los modelos de IA de voz para tu caso de uso. NVIDIA también ofrece NeMo, un kit de herramientas de código abierto para que los investigadores construyan modelos de IA de voz de última generación (SOTA). Los modelos optimizados con NeMo y el kit de herramientas TAO se pueden exportar e implementar fácilmente en NVIDIA® Riva en las instalaciones o en la nube como servicio de voz.

Logra interacciones naturales desarrollando habilidades en tiempo real.

Para las habilidades de IA de voz, las empresas siempre han tenido que elegir entre precisión y rendimiento en tiempo real. Por ejemplo, no pueden hacer una pregunta y, a continuación, esperar varios segundos para obtener una respuesta. Además, no quieren que sus aplicaciones de IA conversacional se malinterpreten o produzcan galimatías.

Con NVIDIA Riva, las empresas pueden lograr una precisión de primer nivel y ejecutar sus canalizaciones de IA de voz en tiempo real, en menos de unos milisegundos. Riva ofrece modelos SOTA entrenados previamente en NGC, herramientas de código bajo como el kit de herramientas TAO para ajustar a fin de lograr una precisión de primer nivel y habilidades optimizadas para un rendimiento en tiempo real.

Figura 3:  Capacidades de habilidades de IA de voz de NVIDIA Riva.

Explora los últimos avances en IA de voz.

La IA de voz se vuelve multilingüe.

Las aplicaciones y canalizaciones de IA de voz deben comprender varios idiomas, dialectos y acentos que se implementarán en todo el mundo. Por ejemplo, las personas en los Estados Unidos y la mayoría de los otros países hablan diferentes idiomas. En casos de uso como los centros de llamadas, hay veces en las que un cliente utiliza más de un idioma para describir lo que está pasando. El siguiente paso es tener aplicaciones de IA de voz  que puedan manejar estas situaciones.

Los desarrolladores pueden usar modelos de voz independientes para cada idioma o un solo modelo que pueda manejar más de un idioma. Obtén más información en la página Colecciones de reconocimiento de voz sobre modelos ASR en diferentes idiomas.

Llevar la IA de voz de la nube al dispositivo.

Cuando las empresas empezaron a usar la IA de voz, todo el mundo usaba los servicios en la nube porque son fáciles de configurar y usar. Poco a poco, las empresas comenzaron a cambiar a soluciones locales para evitar problemas de privacidad con sus datos. Ahora, las soluciones en el dispositivo son el último avance, no solo para mantener los datos privados, sino también para una inferencia más rápida y reducir costes. 

NVIDIA Riva permite que las aplicaciones se implementen en entornos integrados, de centro de datos y en la nube para desarrollar interfaces de IA de voz personalizables para tu aplicación de IA conversacional.

Comience con la IA del habla

Empiece a utilizar los flujos de trabajo de la IA de voz

Acelere el tiempo de desarrollo con flujos de trabajo de IA empaquetados, que incluyen marcos de IA de NVIDIA y modelos previamente entrenados, junto con recursos como gráficos Helm, Jupyter Notebooks y documentación para ayudarle a poner en marcha la creación de soluciones de IA.

Start Developing With Containers and Models

Aunque las implementaciones a gran escala requieren la compra de NVIDIA Riva, NVIDIA también ofrece de forma gratuita una serie de contenedores, modelos y herramientas de personalización.

Accede a recursos educativos.

Presentamos la IA de habla

Comprende los conceptos principales de la IA de voz y cómo crear e implementar aplicaciones de tecnología de voz.

Desmitificar la IA conversacional.

Aprende a añadir IA de voz a aplicaciones de IA conversacional y a personalizarla en el tiempo de entrenamiento e inferencia.

Explora los blogs de IA de voz.

Descubre qué es la IA de voz, cómo ha cambiado a lo largo del tiempo, sobre sus componentes clave, desafíos y casos de uso, y sobre los SDK de IA de voz de NVIDIA.

Echa un vistazo más cerca a NVIDIA Riva.

Comprende las características clave de NVIDIA Riva que te pueden ayudar a crear servicios de IA de voz.

Regístrate para recibir las últimas noticias de NVIDIA sobre IA de habla.