OpenAI ha anunciado nuevas funciones para su chatbot ChatGPT, que permiten a los usuarios interactuar con el bot de IA de forma más natural. Las nuevas funciones incluyen control de voz y búsqueda de imágenes, lo que hace que ChatGPT sea más accesible y versátil que nunca.
La mayoría de los cambios de OpenAI en ChatGPT involucran lo que el bot impulsado por inteligencia artificial puede hacer: las preguntas que puede responder, la información a la que puede acceder y los modelos subyacentes mejorados. Sin embargo, esta vez están ajustando la forma en que usas ChatGPT en sí. La compañía está lanzando una nueva versión del servicio que te permite darle instrucciones al bot de IA no solo escribiendo frases en una caja de texto, sino también hablando en voz alta o subiendo una imagen. Las nuevas funciones se implementarán para aquellos que paguen por ChatGPT en las próximas dos semanas, y el resto tendrá acceso a ellas "pronto" según OpenAI.
La parte de chat de voz es bastante familiar: presionas un botón y haces tu pregunta en voz alta, ChatGPT la convierte en texto y la envía al modelo de lenguaje grande, recibe una respuesta, la convierte nuevamente en voz y te la dice en voz alta. Debería sentirse como hablar con Alexa o Google Assistant, solo que, según OpenAI, las respuestas serán mejores gracias a la tecnología subyacente mejorada. Parece que la mayoría de los asistentes virtuales se están reconstruyendo para depender de modelos de lenguaje generativos, y OpenAI está un paso adelante.
El excelente modelo Whisper de OpenAI se encarga de la mayoría del trabajo de conversión de voz a texto, y la compañía está lanzando un nuevo modelo de texto a voz que, según dice, puede generar "audio similar al humano a partir de texto y unos segundos de muestra de voz". Podrás elegir la voz de ChatGPT entre cinco opciones, pero OpenAI parece pensar que el modelo tiene mucho más potencial que eso. Por ejemplo, OpenAI está trabajando con Spotify para traducir podcasts a otros idiomas manteniendo el sonido de la voz del presentador. Hay muchas aplicaciones interesantes para las voces sintéticas, y OpenAI podría ser parte importante de esa industria.
Pero el hecho de que puedas crear una voz sintética capaz con solo unos pocos segundos de audio también abre la puerta a todo tipo de casos problemáticos. "Estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores malintencionados se hagan pasar por figuras públicas o cometan fraudes", dice la compañía en una publicación de blog anunciando las nuevas funciones. El modelo no está disponible para uso generalizado precisamente por esa razón, según OpenAI: estará mucho más controlado y restringido a casos de uso específicos y colaboraciones.
La búsqueda de imágenes, por otro lado, es un poco como Google Lens. Tomas una foto de lo que te interesa y ChatGPT intentará entender de qué estás hablando y responder en consecuencia. También puedes usar la herramienta de dibujo de la aplicación para ayudar a que tu consulta sea clara, o hablar o escribir preguntas para acompañar la imagen. Aquí es donde la naturaleza de ida y vuelta de ChatGPT es útil: en lugar de hacer una búsqueda, obtener una respuesta incorrecta y luego hacer otra búsqueda, puedes guiar al bot y refinar la respuesta a medida que avanzas. (Esto es muy similar a lo que Google está haciendo con la búsqueda multimodal, también).
Obviamente, la búsqueda de imágenes también tiene sus problemas potenciales. Uno de ellos es lo que podría suceder cuando le hagas una pregunta a un chatbot sobre una persona: OpenAI dice que ha limitado deliberadamente la "capacidad de analizar y hacer declaraciones directas sobre personas" de ChatGPT tanto por motivos de precisión como de privacidad. Eso significa que una de las visiones más de ciencia ficción para la IA, la capacidad de mirar a alguien y decir: "¿Quién es esa persona?", no llegará pronto. Lo cual probablemente es algo bueno.
Casi un año después del lanzamiento inicial de ChatGPT, OpenAI parece estar intentando descubrir cómo darle a su bot más funciones y capacidades sin crear nuevos problemas y desventajas. Con estos lanzamientos, la compañía intentó establecer límites deliberados a lo que sus nuevos modelos pueden hacer. Pero esa aproximación no funcionará para siempre. A medida que más personas usen el control de voz y la búsqueda de imágenes, y a medida que ChatGPT se acerque cada vez más a ser un asistente virtual verdaderamente multimodal y útil, será más difícil mantener las barreras de protección.