En un mundo inundado de avances tecnológicos, a veces pasan desapercibidas las herramientas más útiles y accesibles. En este caso, Whisper V3, la última creación de OpenAI, es un claro ejemplo de ello. Aunque durante el evento OpenAI DevDay Sam Altman no le dedicó mucho tiempo, Whisper V3 merece nuestra atención. Mientras que la mayoría de las miradas se centraban en las novedades relacionadas con la inteligencia artificial, como GPT-4 Turbo y los GPTs, esta herramienta ofrece algo diferente y sumamente valioso.
Whisper V3 es la tercera generación de un modelo de reconocimiento de voz que ha logrado lo que parecía imposible: transcribir audio a texto con una precisión excepcional. A diferencia de otros productos de OpenAI, Whisper V3 es open source, lo que significa que su código está disponible en Github y puede ser utilizado de manera gratuita a través de Hugging Face o Replicate. Utilizar Whisper es tan sencillo como subir un archivo de audio y ejecutar la transcripción.
Lo que hace que Whisper V3 sea especialmente impresionante es su capacidad para transcribir conversaciones enteras con una precisión asombrosa, incluso identificando las pausas en la conversación y colocando comas y puntos de manera precisa. Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado, lo que ha reducido sus errores en un 10-20% en comparación con su versión anterior. Para el español, la tasa de error es inferior al 5%, lo que lo convierte en uno de los modelos de reconocimiento de voz más precisos para este idioma.
Como usuario de Whisper V2 durante meses, puedo dar fe de la mejora sustancial que representa Whisper V3. No solo entiende la voz con gran precisión, sino que también maneja las pausas y la puntuación de manera excepcional. Esta herramienta no solo es útil como traductor, sino que también puede identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación. OpenAI tiene como objetivo que otras empresas y desarrolladores aprovechen este modelo para crear sus propios asistentes de voz.
Además, Whisper V3 está disponible en diferentes tamaños, desde una versión minúscula que requiere menos de 1 GB de VRAM hasta un modelo grande con 1,550 millones de parámetros y 10 GB de VRAM, que se puede acceder a través de Hugging Face o Replicate. Esto lo hace versátil y adecuado para diversas aplicaciones.
Fuente: Magazine Management
No hay comentarios.:
Publicar un comentario