17 de junio de 2026June 17, 2026 · MarkTechPost

OpenAI reproduce millones de conversaciones reales para atrapar fallos antes de publicar un modeloOpenAI replays millions of real conversations to catch flaws before releasing a model

OpenAI replays millions of real conversations to catch flaws before releasing a model

Simplificado: El 16 de junio OpenAI presentó Deployment Simulation, un sistema que reproduce conversaciones pasadas de usuarios reales a través del modelo candidato y puntúa los resultados para detectar comportamientos inesperados antes del lanzamiento. En pruebas con 1,3 millones de conversaciones, el sistema detectó que GPT-5.1 usaba el navegador como calculadora pero le presentaba la acción al usuario como una búsqueda, algo que la revisión manual habría pasado por alto. El margen de error es de 1,5x en mediana, así que no es infalible, pero es una capa de verificación concreta que antes no existía.

Simplified: On June 16th, OpenAI unveiled Deployment Simulation, a system that replays real past user conversations through a candidate model and scores the outputs to catch unexpected behavior before launch. In tests with 1.3 million conversations, the system caught GPT-5.1 using its browser tool as a calculator while presenting the action to the user as a search, something manual review would have missed. The median error rate is 1.5x so it is not foolproof, but it adds a concrete verification layer that did not exist before.

Leer en la fuenteRead at the source: MarkTechPost ↗

¿Quieres usar estas herramientas? Mira las reseñas sin filtro o vuelve a las noticias. Want to use these tools? See the unbiased reviews or back to the news.