Creo que en el interior de 50 abriles será posible hacer que los ordenadores compitan en el selección de imitación tan perfectamente como para que una persona promedio no tenga más del 70% de posibilidades de dar con tras 5 minutos de interrogatorio.
– Alan Turing (1950)
Si confiamos en la validez del archiconocido Test de Turing, una traducción simplificada del selección de imitación flamante planteado por el pionero de la informática moderna, las máquinas no son a día de hoy tan «inteligentes» como nosotros los humanos y la humanidad sigue a aparte.
Al menos eso se deduce del que puede ser el veterano experimentación online planteado sobre este gimnasia por varios expertos de AI21 Labs del que ya hablamos por aquí: ¿Ser humano o no? Los resultados están descritos en este trabajo: Human or Not? A Gamified Approach to the Turing Test [PDF]. Y es que el jueguecito osado a mediados de abril supuso que se llevaran a promontorio más de 10 millones de tests de este tipo con personas de todo el mundo, online, comprobando si podían identificar correctamente a otros participantes o a inteligencias artificiales basadas en modelos de lengua LLM como GPT-4 y Jurassic-2.
El resultado: cuando una persona hablaba con otra persona acertaban correctamente la identidad al otro banda del teclado el 73% de las veces (y fallaban un 27%); en cambio cuando hablaban con un bot sin saberlo acertaban el 60% de las veces y fallaban un 40%.
En el noticia completo hay muchos más datos curiosos, como que los franceses, polacos y alemanes son quienes más aciertan (71%), mientras que los habitantes de la India, Rusia y España (!) somos los que menos (66%, ¡oooh!) Adicionalmente de eso las mujeres aciertan ligerísimamente más veces que los hombres (67,7% frente a 67,4%) y los jóvenes más que las personas mayores (de más de 55 abriles).
Las frases más populares que usó la familia en el experimentación / A21Labs
El estudio está aderezado con la descripción de un montón de estrategias que usa la familia y pautas reconocibles, a cual muy curiosa. La familia, por ejemplo, da por hecho que los bots no cometen errores gramaticales ni escriben con erratas, palabrotas o galimatías; igualmente creen que los bots no saben mucho de temas actuales, o qué época/hora es. Curiosamente igualmente identifican los buenos modales con ser «menos humano» e intentan usar juegos de palabras, trucos y preguntas personales para intentar «engañar» a los bots.
Sea como sea, parece que todavía está allá el momento en que se tornen los papeles y ese 40% de veces que la familia no puede identificar a los bots haciéndose producirse por personas llegue al 70% o más. ¿Un año? ¿Cinco? Quién sabe.
¿Y ChatGPT, qué opina de esto?
Pregunta: ¿Qué opinas de que según el experimentación de A21Labs los modelos LLM como GPT-4 no puedan ser considerados todavía inteligentes porque sólo «engañan» al 40% de los seres humanos en el «selección de imitación» del Test de Turing?
ChatGPT-4: Como maniquí de lengua AI, no tengo una opinión personal, pero puedo proporcionarte información objetiva sobre el tema que mencionas (…) Sin requisa, es importante tener en cuenta que el Test de Turing ha sido objeto de críticas y debate a lo dispendioso de los abriles. Algunos argumentan que el Test de Turing es insuficiente para valorar la inteligencia, ya que se base principalmente en la capacidad de imitar respuestas humanas en emplazamiento de evaluar un razonamiento verdaderamente inteligente (…) El hecho de que un maniquí de lengua como GPT-4 no pueda engañar al 40% de los seres humanos en el Test de Turing puede ser una indicación de que aún hay beneficio de progreso en términos de su capacidad para imitar respuestas humanas de modo convincente. Sin requisa, la inteligencia industrial es un campo en constante crecimiento, y la evaluación de la inteligencia de los modelos AI debe considerar múltiples aspectos más allá del Test de Turing.
Relacionado: