Noticias que mencionan GPT-2

Anthropic oculta su modelo más avanzado por temor a un uso peligroso

La empresa de inteligencia artificial Anthropic anunció que su nuevo modelo Claude Mythos es tan avanzado en la detección de vulnerabilidades de ciberseguridad que representa un riesgo catastrófico para la sociedad si cae en manos equivocadas, por lo que no será liberado públicamente de inmediato. E

Entrena GPT en tu laptop: Taller práctico y accesible

Un desarrollador ha creado un taller práctico para permitir a usuarios entrenar modelos GPT en laptops, incluso sin experiencia previa en aprendizaje automático. Inspirado por el proyecto 'nanoGPT' de Andrej Karpathy, el taller simplifica el proceso, reduciendo el tamaño del modelo a aproximadamente

IA: ¿Costos crecientes frenan su rápido avance?

Un análisis reciente plantea una pregunta crucial sobre el futuro de la inteligencia artificial: ¿están aumentando los costos de los agentes de IA a un ritmo exponencial? Si bien los modelos de IA han demostrado un crecimiento exponencial en la capacidad de realizar tareas, desde tareas que tomarían

Deja la IA: Ingeniero busca fundamentos en la programación

Un ingeniero de Aily Labs, empresa especializada en inteligencia artificial, ha decidido tomarse un descanso de la IA para enfocarse en la programación manual, residiendo actualmente en Brooklyn como parte de un “retiro de codificación”. Tras dos años trabajando en Aily Labs, desarrollando agentes d

IA potente limitada: Anthropic frena nuevo modelo

Anthropic ha restringido el acceso a su nuevo modelo de IA, Claude Mythos, debido a su potencial para generar exploits de seguridad informática a gran escala. A diferencia de lanzamientos anteriores, Mythos no estará disponible para el público general, ya que podría permitir a atacantes descubrir vu

OpenAI frena IA: riesgo de noticias falsas

La organización de investigación de inteligencia artificial OpenAI ha desarrollado un nuevo modelo de generación de texto, GPT-2, capaz de producir prosa coherente y adaptable a diversos estilos. Sin embargo, la empresa ha decidido no publicar el código completo del algoritmo, citando preocupaciones

Transformadores: estudio revela desafíos en cuantificación binaria

Una investigación reciente, alojada en el repositorio SALOMI en GitHub, ha revelado limitaciones en la cuantificación binaria de transformadores, una técnica utilizada para reducir el tamaño y mejorar la eficiencia de los modelos de lenguaje grandes (LLM). El estudio, centrado en la cuantificación e

IA: la memoria de las conversaciones tiene un costo

La forma en que los modelos de lenguaje grandes (LLM) como ChatGPT gestionan la memoria de las conversaciones, conocida como 'KV cache', tiene un costo físico y económico significativo. Cada interacción, incluso una pregunta sencilla, se traduce en datos almacenados en la memoria de la GPU, con GPT-

Mr. Chatterbox: IA con sabor victoriano

Trip Venturella ha lanzado "Mr. Chatterbox", un modelo de lenguaje único que se entrena exclusivamente con textos de dominio público de la Biblioteca Británica, datados entre 1837 y 1899. Este enfoque elimina cualquier dato de entrenamiento posterior a 1899, creando un modelo con una perspectiva y v

LLMs y programación: el futuro del desarrollo

Este artículo explora cómo el autor está utilizando modelos de lenguaje grandes (LLMs) para desarrollar software de manera más eficiente y efectiva. El punto central es que, en lugar de reemplazar a los programadores, los LLMs están transformando el rol, desplazando el enfoque de la escritura de cód

IA en videojuegos: ¿dónde están las promesas?

El artículo de Frank Lantz explora una paradoja intrigante: a pesar del auge de la inteligencia artificial, no hemos visto una revolución en los videojuegos impulsada por esta tecnología. El autor plantea la pregunta de por qué, después de años de promesas, la IA no ha generado experiencias de juego

Ingeniero simplifica modelos GPT a 200 líneas de código

Un ingeniero ha simplificado significativamente los modelos de lenguaje grandes (LLM) como GPT, creando una versión funcional en tan solo 200 líneas de código Python. Esta hazaña, denominada 'microgpt', representa un hito en la accesibilidad y comprensión de la tecnología detrás de herramientas como

GPT en C: modelo más rápido para dispositivos

Un desarrollador ha creado una implementación en lenguaje C99 de un modelo GPT de estilo 'character-level', denominado MicroGPT-C, que permite un entrenamiento y generación de texto significativamente más rápidos que las implementaciones en Python. El proyecto, publicado en GitHub, busca ofrecer una