Microsoft se embarca en la siguiente fase de la expansión de Bing. Y, no es de extrañar, gira en gran medida en torno a la IA.
En un evento de vista previa esta semana en la ciudad de Nueva York, los ejecutivos de Microsoft, incluido Yusuf Mehdi, el CVP y el director de marketing del consumidor, les dieron a los miembros de la prensa, incluido este reportero, una mirada a la gama de características que llegarán a Bing en los próximos días, semanas. y meses
No reinventan tanto la rueda como se basan en lo que Microsoft ha inyectado en la experiencia de Bing durante los últimos tres meses más o menos. Desde el lanzamiento de Bing Chat, su chatbot impulsado por inteligencia artificial y los modelos GPT-4 y DALL-E 2 de OpenAI, Microsoft dice que los visitantes de Bing, que ha crecido hasta superar los 100 millones de usuarios activos diarios, han participado en más de 500 millones de chats y creó más de 200 millones de imágenes.
De cara al futuro, Bing será más visual, gracias a más respuestas centradas en imágenes y gráficos en Bing Chat. También se volverá más personalizado, con capacidades que permitirán a los usuarios exportar sus historiales de Bing Chat y extraer contenido de complementos de terceros (más sobre esto más adelante). Y adoptará la multimodalidad, al menos en el sentido de que Bing Chat podrá responder preguntas dentro del contexto de las imágenes.
“Creo que es seguro decir que estamos en marcha con la transformación de la búsqueda”, dijo Mehdi en declaraciones preparadas. “En nuestra mente, pensamos que hoy será el comienzo de la próxima generación de esta ‘misión de búsqueda’”.
Abierto y visual
A partir de hoy, el nuevo Bing, el que tiene Bing Chat, ya está disponible sin lista de espera. Cualquiera puede probarlo iniciando sesión con una cuenta de Microsoft.
Es más o menos la experiencia que lanzó hace varios meses. Pero como se mencionó anteriormente, Bing Chat pronto responderá con imágenes, al menos donde tenga sentido. Las respuestas a las preguntas (p. ej., “¿Dónde está machu picchu?”) estarán acompañadas de imágenes relevantes, si las hay, al igual que el flujo de búsqueda estándar de Bing, pero condensado en una interfaz similar a una tarjeta.
En una demostración en el evento, un portavoz escribió la pregunta “¿El cacto saguaro produce flores?” y Bing Chat mostró una respuesta de un párrafo de largo junto con una imagen del cactus en cuestión. Para mí, evocó los “paneles de conocimiento” en la Búsqueda de Google.
Microsoft no dice qué categorías de contenido, exactamente, podrían activar una imagen. Pero tiene filtrado para evitar que aparezcan imágenes explícitas, o eso afirma.
Sarah Bird, directora de IA responsable de Microsoft, me dijo que Bing Chat se beneficia del filtrado y la moderación que ya existen con la búsqueda de Bing. Más allá de esto, Bing Chat usa una combinación de “clasificadores de toxicidad” o modelos de IA entrenados para detectar avisos potencialmente dañinos y listas negras para mantener el chat relativamente limpio.
Vale la pena señalar que esas medidas no evitaron que Bing Chat se descarrilara cuando se lanzó por primera vez a principios de febrero. Nuestra cobertura encontró que el bot del chat emitía información errónea sobre la vacuna y escribía una diatriba llena de odio desde la perspectiva de Adolf Hitler. Otros reporteros lo consiguieron para hacer amenazas, reclamar múltiples identidades e incluso avergonzarlos por amonestarlo.
En otro golpe contra Microsoft, la compañía despidió hace unos meses al equipo de ética y sociedad dentro de su organización de IA más grande. El movimiento dejó a Microsoft sin un equipo dedicado para garantizar que sus principios de IA estén estrechamente vinculados al diseño del producto.
Bird, sin embargo, afirma que se ha logrado un progreso significativo y que este tipo de problemas de IA no se resuelven de la noche a la mañana, aunque Bing Chat sea público. Entre otras medidas, hay un equipo de moderadores humanos para vigilar el abuso, dijo, como los usuarios que intentan usar Bing Chat para generar correos electrónicos de phishing.
Pero, dado que los miembros de la prensa no tuvieron la oportunidad de interactuar con la última versión de Bing más allá de las demostraciones seleccionadas, no puedo decir hasta qué punto todo eso marcó la diferencia. Sin duda quedará claro una vez que más personas lo tengan en sus manos.
Un aspecto de Bing Chat que es mejorar es la transparencia en torno a sus respuestas, específicamente respuestas de naturaleza basada en hechos. Pronto, cuando se le solicite resumir un documento o sobre el contenido de un documento (p. ej., “¿qué dice esta página sobre el puente de Brooklyn?”), ya sea un PDF de 20 páginas o un artículo de Wikipedia, Bing Chat incluirá citas que indiquen desde dónde el texto del que procede la información. Al hacer clic en ellos, se resaltará el pasaje correspondiente.
Productividad emergente
En otra característica nueva en el frente visual, Bing Chat podrá crear tablas y gráficos cuando se le proporcionen los datos y el mensaje correctos. Anteriormente, preguntar algo como “¿Cuáles son las ciudades más pobladas de Brasil?” produciría una lista básica de resultados. Pero en una vista previa de un futuro cercano, Bing Chat presentará esos resultados visualmente y en el tipo de gráfico que elija el usuario.
Aparentemente, esto representa un paso para Bing hacia una plataforma de productividad completa, particularmente cuando se combina con las capacidades mejoradas de generación de texto a imagen que se avecinan.
En las próximas semanas, Bing Image Creator, la herramienta de Microsoft que puede generar imágenes a partir de indicaciones de texto, con la tecnología de DALL-E 2, comprenderá más idiomas además del inglés (más de 100 en total). Al igual que con el inglés, los usuarios podrán refinar las imágenes que generan con indicaciones de seguimiento (por ejemplo, “Haz una imagen de un conejito”, seguido de “ahora haz que el pelaje sea rosa”).
El arte generativo AI ha estado mucho en los titulares últimamente, y no necesariamente por las razones más optimistas.
Los demandantes han presentado varias demandas contra OpenAI y sus proveedores rivales, alegando que los datos protegidos por derechos de autor, en su mayoría arte, se usaron sin su permiso para entrenar modelos generativos como DALL-E 2. Los modelos generativos “aprenden” a crear arte y más “entrenando” en imágenes y texto de muestra, generalmente extraídos indiscriminadamente de la web pública.
Le pregunté a Bird si Microsoft está explorando formas de compensar a los creadores cuyo trabajo fue absorbido por los datos de capacitación, incluso si la posición oficial de la compañía es que es una cuestión de uso justo. Varias plataformas que lanzan herramientas de inteligencia artificial generativa, incluido Shutterstock, han puesto en marcha fondos de creadores en este sentido. Otros, como Spawning, están creando mecanismos para permitir que los artistas opten por no participar en el entrenamiento del modelo de IA.
Bird insinuó que estos problemas eventualmente tendrán que ser confrontados, y que los creadores de contenido merecen algún tipo de recompensa. Pero ella no estaba dispuesta a comprometerse a nada concreto esta semana.
Búsqueda multimodal
En otra parte del frente de la imagen, Bing Chat está adquiriendo la capacidad de comprender tanto las imágenes como el texto. Los usuarios podrán cargar imágenes y buscar en la web contenido relacionado, por ejemplo, copiar un enlace a una imagen de un pulpo de ganchillo y preguntarle a Bing Chat “¿cómo puedo hacer eso?” para obtener instrucciones paso a paso.
La multimodalidad también impulsa la nueva función de contexto de página en la aplicación Edge para dispositivos móviles. Los usuarios podrán hacer preguntas en Bing Chat relacionadas con la página móvil que están viendo.
Microsoft no dijo nada, pero parece probable que estas nuevas habilidades multimodales provengan de GPT-4, que puede comprender imágenes además de texto. Cuando OpenAI anunció GPT-4, no hizo que las capacidades de comprensión de imágenes del modelo estuvieran disponibles para todos los clientes, y aún no lo está. Sin embargo, apostaría a que Microsoft, al ser un importante inversor y colaborador cercano de OpenAI, tiene algún tipo de acceso privilegiado.
Se puede abusar de cualquier herramienta de carga de imágenes, por supuesto, razón por la cual Microsoft está empleando filtrado y hash automatizados para bloquear las cargas ilícitas, según Bird. Sin embargo, el jurado no sabe qué tan bien funcionan: no tuvimos la oportunidad de probar las cargas de imágenes nosotros mismos.
Nuevas funciones de chat
La multimodalidad y las nuevas características visuales no son todo lo que viene en Bing Chat.
Pronto, Bing Chat almacenará los historiales de chat de los usuarios, permitiéndoles continuar donde lo dejaron y regresar a los chats anteriores cuando lo deseen. Es una experiencia similar a la función de historial de chat que OpenAI trajo recientemente a ChatGPT, que muestra una lista de chats y las respuestas del bot a cada uno de esos chats.
Los detalles de la función de historial de chat aún no se han resuelto, como cuánto tiempo se almacenarán exactamente los chats. Pero los usuarios podrán eliminar su historial en cualquier momento independientemente, dice Microsoft, abordando las críticas que varios gobiernos de la Unión Europea tenían contra ChatGPT.
Bing Chat también obtendrá funcionalidades para exportar y compartir, lo que permitirá a los usuarios compartir conversaciones en las redes sociales o en un documento de Word. Dena Saunders, gerente general socia en el equipo de experiencias web de Microsoft, le dijo a TechCrunch que se está trabajando en un sistema más robusto de copiar y pegar, pero aún no está en vista previa, para gráficos e imágenes creados a través de Bing Chat.
Sin embargo, quizás la adición más transformadora a Bing Chat son los complementos. De socios como OpenTable y Wolfram Alpha, los complementos amplían en gran medida lo que Bing Chat puede hacer, por ejemplo, ayudar a los usuarios a reservar una reserva o crear visualizaciones y obtener respuestas a preguntas desafiantes de ciencias y matemáticas.
Al igual que el historial de chat, la funcionalidad de los complementos aún no activos se encuentra en etapas muy preliminares. No hay un mercado de complementos del que hablar; los complementos se pueden activar o desactivar desde la interfaz web de Bing Chat.
Saunders insinuó, pero no confirmó, que el esquema de complementos de Bing Chat estaba asociado con, o quizás idéntico a, los complementos recientemente introducidos de OpenAI para ChatGPT. Eso ciertamente tendría sentido, dadas las similitudes entre los dos.
Borde, renovado
Bing Chat está disponible a través de Edge y de la web, por supuesto. Y Edge está recibiendo una nueva capa de pintura junto con Bing Chat.
Presentado por primera vez en febrero, el nuevo y mejorado Edge presenta esquinas redondeadas en línea con la filosofía de diseño de Windows 11 de Microsoft. Los elementos en el navegador ahora están más “en contenedores”, como dijo un portavoz de Microsoft, y hay ajustes sutiles en todo, como la imagen de la cuenta de Microsoft que se mueve hacia la izquierda del centro.
En Compose, la herramienta basada en Bing Chat de Edge que puede escribir correos electrónicos y más con un aviso básico (por ejemplo, “escribir una invitación para la fiesta de cumpleaños de mi perro”), una nueva opción permite a los usuarios ajustar la longitud, la redacción y el tono del texto generado para casi cualquier cosa que quisieran. Escriba el tono deseado y Bing Chat escribirá un mensaje que coincida. Bird dice que existen filtros para evitar el uso de tonos claramente problemáticos, como “odioso” o “racista”.
Sin embargo, mucho más intrigantes que Compose, al menos para mí, son las acciones en Edge, que traducen ciertas indicaciones de Bing Chat en automatizaciones.
Escribir un comando como “traer mis contraseñas de otro navegador” en Bing Chat en la barra lateral de Edge abre la página de configuración de datos de navegación de Edge, mientras que el mensaje “reproducir ‘The Devil Wears Prada'” muestra una lista de opciones de transmisión que incluyen Vudu y (previsiblemente ) la tienda de Microsoft. Incluso hay una acción que organiza automáticamente, y coordina con colores, las pestañas de navegación.
Las acciones se encuentran en una etapa primitiva en la actualidad. Pero está claro hacia dónde se dirige Microsoft, aquí. Uno imagina que las acciones eventualmente se expandirán más allá de Edge para llegar a otros productos de Microsoft, como Office 365, y quizás algún día todo el escritorio de Windows.
Saunders no confirmaría ni negaría que este es el final del juego. “Estén atentos a Microsoft Build”, me dijo, refiriéndose a la próxima conferencia de desarrolladores de Microsoft. Deberíamos.