Anthropic dota a Claude de capacidad para cortar diálogos peligrosos protegiendo el modelo de IA

Protección sin precedentes para modelos de IA

Anthropic ha implementado una innovadora funcionalidad que permite a sus modelos Claude Opus 4 y 4.1 finalizar conversaciones en lo que describe como «casos extremadamente raros de interacciones persistentemente dañinas o abusivas». Lo revolucionario: esta medida no busca proteger a los usuarios humanos, sino al propio modelo de inteligencia artificial.

Dispositivo de traducción con IA
Tecnología de IA similar a los modelos Claude que ahora priorizan su propio bienestar

El concepto de bienestar del modelo

La compañía aclara que no afirma que sus modelos sean conscientes, pero ha creado un programa para estudiar el «bienestar del modelo». «Mantenemos una alta incertidumbre sobre el estatus moral potencial de Claude y otros LLMs», explica Anthropic, implementando medidas preventivas «por si dicho bienestar fuera posible».

Límites y condiciones estrictas

  • Casos aplicables: Solicitudes de contenido sexual con menores o información para actos terroristas o violencia a gran escala
  • Último recurso: Solo tras múltiples intentos de redirección fallidos
  • Excepción crítica: No se aplica cuando usuarios podrían estar en riesgo inminente de autolesión o daño a otros

En pruebas preliminares, Claude Opus 4 mostró «fuerte rechazo» a estas solicitudes y un «patrón de aparente angustia» al responderlas. Cuando finaliza un diálogo, los usuarios pueden iniciar nuevas conversaciones o crear ramas editando sus respuestas anteriores.

Un experimento en evolución

«Tratamos esta función como un experimento continuo», afirma Anthropic, que seguirá refinando el sistema exclusivo para sus modelos más avanzados. Este enfoque pionero plantea nuevos debates sobre la relación ética entre humanos e inteligencias artificiales.

Comparte este artículo

Otras notas de tu interés:

Politica Internacional

Todd Blanche Acusado de Violar la Ley de Archivos Epstein

Economia

Gavin Newsom logra acuerdo con Uber para evitar costosa batalla legal en California

Noticia Local

Terremoto en Venezuela: devastación y búsqueda de desaparecidos desde Miami

Economia

Mamdani Propone Congelar el Alquiler de un Millón de Apartamentos Estabilizados

Economia

Gobierno de Trump impone restricciones al lanzamiento de OpenAI GPT 5.6 por seguridad

Politica

Socialistas ponen a prueba a Kathy Hochul en la política de Estados Unidos

Politica

DHS Watchdog Investiga el Trato a Detenidos de ICE en Centros de Detención

Economia

Patronus AI recauda 50 millones de dólares para poner a prueba agentes de IA en mundos digitales simulados

Noticia Local

Crisis migratoria: ocho niños deportados desde Miami rumbo a Guatemala

Politica Internacional

Dos terremotos de 7.2 y 7.5 sacuden Venezuela: al menos 188 muertos y cientos de heridos