PDFs adaptables: humanos ven el diseño, máquinas obtienen markdown

Los archivos PDF están diseñados para la visualización humana: almacenan coordenadas y tipografía, pero rara vez incluyen información estructural como encabezados o listas. Esto no suponía un problema hasta que los modelos de lenguaje (LLM) comenzaron a procesar PDFs de forma masiva. Al carecer de e

Tectonic: el sistema de tipografía que moderniza TeX

Tectonic es un sistema de composición tipográfica moderno que convierte archivos TeX en PDF de manera eficiente. A diferencia de las instalaciones tradicionales de TeX, Tectonic es autocontenido y no requiere una distribución completa de TeX Live; descarga automáticamente los recursos de LaTeX neces

LiteParse: el parser de documentos OSS de LlamaIndex que ejecuta todo en local

LiteParse es una herramienta de código abierto para el parseo de documentos lanzada por LlamaIndex. Diseñada para ejecutarse íntegramente en local, ofrece análisis de texto espacial con cajas delimitadoras, sin depender de servicios en la nube ni de modelos de lenguaje propietarios. La arquitectura

Nueva solución para generar PDFs desde Markdown con Pandoc y Typst

Este artículo describe una solución para generar archivos PDF a partir de documentos Markdown utilizando Pandoc y Typst, abordando los desafíos de la evolución de ambas herramientas. El autor, JMax, originalmente creó una plantilla para este propósito, pero las actualizaciones de Pandoc y Typst la h

Usborne ofrece en PDF gratis los clásicos de informática de los 80

La editorial Usborne ha puesto a disposición gratuita en formato PDF una colección de sus clásicos libros de informática y programación, originalmente publicados en la década de 1980. La iniciativa, anunciada el 25 de noviembre de 2021, busca ofrecer a los usuarios acceso a materiales que inspiraron

.mdv: Markdown Avanzado para Datos e Informes

Un nuevo superset de Markdown llamado .mdv ha sido desarrollado para simplificar la creación de documentos, dashboards y presentaciones, según anunció el desarrollador Drasimwagan en GitHub. La herramienta, actualmente en una versión pre-release, permite integrar gráficos, tarjetas KPI, tablas y sec

Falla en Apache FOP evade seguridad de GhostScript

Investigadores de seguridad han descubierto una vulnerabilidad en la forma en que Apache FOP, un procesador de objetos de formato, genera archivos PostScript que luego son interpretados por GhostScript para crear archivos PDF. La falla permite a atacantes eludir la sandbox de GhostScript, diseñada p

Recuerda fácil: crea tu guía personal de tareas

Este artículo de Ellane W. aborda un problema común: olvidar cómo realizar tareas que realizamos con cierta frecuencia, especialmente aquellas que no repetimos regularmente. El ejemplo inicial es la preparación de un PDF para una demostración, un proceso que, aunque conocido, requirió un esfuerzo co

VMPrint: Nuevo motor PDF sin dependencias ni errores

Un nuevo motor de tipografía de código abierto llamado VMPrint promete generar archivos PDF de calidad bit-perfecta, eliminando las inconsistencias y dependencias problemáticas asociadas con las soluciones actuales. Desarrollado por Cosmiciron y disponible en GitHub, VMPrint se distingue por su dise

OpenAI facilita la ciencia: herramienta explica estudios complejos

Una nueva herramienta, desarrollada por investigadores de OpenAI, simplifica el acceso y la comprensión de artículos científicos. La plataforma, disponible en nowigetit.us, permite a los usuarios cargar archivos PDF de investigación (de hasta 10 MB) y recibir a cambio una página web interactiva y ex

Elixir y Python se integran: Oban facilita el procesamiento

Oban, una herramienta para el procesamiento de trabajos, ha simplificado la interoperabilidad entre aplicaciones Elixir y Python. El proyecto "Badge Forge" demuestra cómo integrar funcionalidades de Python, como la generación de PDF con WeasyPrint, en una aplicación Elixir. La clave reside en que am

Ocr sin servidor: 40 líneas de código lo hacen posible

Un desarrollador ha creado un sistema de Reconocimiento Óptico de Caracteres (OCR) sin servidor utilizando un modelo de código abierto, DeepSeek OCR, en tan solo 40 líneas de código. La solución, implementada a través de la plataforma Modal, permite procesar documentos PDF, incluso aquellos con nota

Typst lidera: análisis revela sorpresas en motores PDF

Un análisis comparativo de seis motores PDF ha revelado resultados inesperados, según un desarrollador de Speedata, quien los utilizó para su propio motor de tipografía. El estudio, realizado en una MacBook Air M4, evaluó el rendimiento de speedata Publisher (sp), Typst, pdflatex, LuaLaTeX, WeasyPri

DjVu: el formato de archivo que aprende

DjVu es un formato de archivo diseñado para comprimir documentos escaneados, especialmente libros y documentos técnicos, de manera mucho más eficiente que el formato PDF. Aunque menos conocido hoy en día, su superioridad radica en su capacidad para manejar imágenes y texto de forma inteligente, a di

Clásicos Literarios: Descarga, Imprime y Crea tu Biblioteca

## Printable Classics: Dale vida a tus libros clásicos con la impresión casera **¿Qué es Printable Classics y por qué es útil?** Printable Classics es una plataforma que ofrece versiones descargables y personalizables de obras clásicas de la literatura, como *Moby Dick*, *Drácula*, *Alicia en el P

pdf-lib: JavaScript para Editar PDFs Directamente

Desarrolladores han lanzado 'pdf-lib', una nueva biblioteca de JavaScript que permite la modificación y manipulación de archivos PDF de manera robusta y compatible con diversos entornos, incluyendo navegadores web y Node.js. A diferencia de otras bibliotecas existentes, 'pdf-lib' destaca por su capa

Arcan Project: Nuevo navegador 'Desktop Engine' toma protagonismo

Arcan Project ha reorientado su enfoque hacia la implementación de un novedoso 'Desktop Engine' que funciona como un navegador web. El proyecto, que comenzó con la visión de crear un sistema operativo alternativo, ahora se centra en desarrollar un navegador que se sitúa en el punto intermedio entre

Colisión en SHA-1: Amenaza a Sistemas Ampliamente Usados

Este artículo describe un avance significativo en la criptografía: la demostración de la primera colisión real para la función hash SHA-1. SHA-1, aunque oficialmente desaprobada desde 2011, aún se utiliza ampliamente en diversas aplicaciones, desde firmas de documentos y certificados TLS hasta siste

Vulnerabilidad en SHA-1: Falsificación de documentos digitalmente posible

Investigadores de Centrum Wiskunde & Informatica (CWI) y Google han demostrado, de forma práctica, la vulnerabilidad de SHA-1, un estándar criptográfico ampliamente utilizado para la verificación de la integridad de archivos y firmas digitales. Esto significa que ahora es posible crear dos archivos

A case study in PDF forensics: The Epstein PDFs

El Departamento de Justicia de EE. UU. ha publicado una nueva tanda de archivos relacionados con Jeffrey Epstein, lo que ha provocado un análisis forense de los documentos PDF resultantes. Expertos de la PDF Association han examinado una muestra aleatoria de estos archivos, confirmando que las corre