Claude Opus 4.6 con 1M de contexto — qué cambia para los agentes de voz
El nuevo modelo insignia de Anthropic sube el contexto a 1M de tokens. Esto es lo que cambia de verdad para agentes de voz en producción que necesitan conversaciones largas y tool calls en vivo.
Anthropic lanzó Claude Opus 4.6 con una ventana de contexto de 1 millón de tokens. La pregunta que se hace cada equipo con agentes de voz en producción es: ¿cambia algo de verdad, o es solo un titular de benchmark?
Respuesta corta: sí, pero no en la forma en la que lo vende el marketing.
Qué es realmente nuevo
- 1M de contexto. Unas 750.000 palabras o 2.500 páginas. Suficiente para tener el historial completo de un cliente, un catálogo de productos y una conversación multi-turno en una misma llamada sin acrobacias de RAG.
- Tool calling más rápido — mejora empírica de 20–30% en latencia sobre Opus 4.5 en nuestras pruebas. Para loops de voz sub-800ms, esto importa más que el titular del contexto.
- Mejor comprensión paralingüística — en despliegues speech-native, Opus 4.6 capta pistas de duda y frustración de forma más fiable que 4.5, tanto en inglés como en español.
Dónde se rompe
El contexto de 1M no es gratis. El coste por token escala linealmente, y la latencia también. Para agentes de voz no recomendamos meter más de ~100K tokens en el contexto de trabajo aunque técnicamente se pueda — los últimos 900K quedan muertos y el modelo los ignora casi por completo.
Nuestro tope práctico sigue siendo prompts aumentados con RAG de 20–40K tokens con recuperación ajustada. Opus 4.6 hace ese patrón más rápido y más preciso, no obsoleto.
Qué estamos haciendo con él
Movimos nuestros agentes de campaña en cascada a Opus 4.6 el día del lanzamiento. La latencia de tool calls bajó de ~340ms de mediana a ~260ms. La precisión paralingüística en llamadas en español subió unos 4 puntos. El coste se mantiene plano porque no expandimos el contexto — solo cambiamos de modelo.
Para equipos con agentes de voz en producción, la actualización es obvia. Para el resto, lee la sección de precios de Anthropic antes de saltar.
TL;DR
- Actualiza si operas agentes de voz o loops de tool calling sensibles a la latencia.
- Espera si ibas a quemar el contexto extra en prompts gigantes — vas a pagar de más por atención que el modelo ignora.
- Re-benchmark con tu carga real. Nuestros números son los nuestros.
Etiquetas