HeavyThink
Heavy parallel reasoning + criterion-driven synthesis as an inner skill — for problems where one shot is not enough.
🇬🇧 English · 🇧🇷 Português · 🇪🇸 Español
<a id="english"></a>
🇬🇧 English
Most reasoning failures are not failures of intelligence — they are failures of independence. A single reasoning pass collapses into the first plausible framing. HeavyThink forces the model to generate K independent trajectories, then deliberates over them under explicit criteria — turning correctness into something the model has to earn, not merely output.
Empirical basis: Wang et al. (2026), HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness. Parallel reasoning + sequential deliberation outperforms single-pass and Best-of-N voting on verifiable tasks; deliberation produces correct answers absent from any individual trajectory in ~50% of frontier-model trials.
Install
myclaude install heavy-think
After installation, the skill is available at .claude/skills/heavy-think/. It auto-activates on reasoning-heavy queries and can be invoked explicitly with phrases like "think hard about…", "deliberate on…", or "heavy thinking on…".
Also compatible with: any tool that loads Agent Skills format (SKILL.md + frontmatter) — Cursor, Codex, Gemini CLI, Copilot, and the wider ecosystem.
Is this for me?
Yes, if you:
- Tackle problems where a single reasoning pass feels insufficient (architecture decisions, hard math/code, diagnostic investigations, multi-stakeholder analysis).
- Work with frontier models (Opus 4.7, Sonnet 4.6) where deliberation cost is justified by stakes.
- Want criterion-driven synthesis instead of "average of K opinions."
No, if you:
- Need fast factual answers or retrieval — heavy thinking is overhead here.
- Work mostly on subjective creative tasks — empirically, gains are marginal or negative there (use voice-anchor mode if you must).
- Have time-critical workflows where K parallel calls would blow the latency budget.
Quick start
You: "Architect the data layer for a multi-tenant SaaS with strict isolation
and per-tenant analytics. Heavy think this."
HeavyThink (internally):
1. Constraint check: K=5 fits the context window — proceed.
2. Generate 5 independent trajectories (Anatomy / Mechanism / Purpose
/ Context / Trajectory lenses).
3. Mode select: agreement = 0.4 → SYNTHESIS mode.
4. Resolve tensions via criteria (Correctness > Completeness >
Consistency > Elegance > Operability > Robustness).
5. Output answer-first; meta-analysis only on request.
You see: a clear architectural recommendation with confidence level
and one sentence on what would change the conclusion — not a tour
of the deliberation.
Features
🧠 Calibrated activation intensity (Light / Standard / Deep)
What it does: Picks K (parallel trajectories) and N (iterations) based on stakes — Light (3·1) for bounded reversible decisions, Standard (5·1) for most cases, Deep (5–8 · 1–2) for irreversible multi-domain decisions.
Why it matters: K=5 always is wasteful on simple tasks and insufficient on hard ones. The calibration heuristic decides in one sequential check, so you stop paying for capacity you don't need.
⚙️ Dual-mode deliberation (Verification / Synthesis / Hybrid)
What it does: Classifies the trajectory landscape before deliberating. ≥75% agreement on verifiable tasks → Verification (validate consensus, mine dissent). <50% agreement → Synthesis (cross-pollinate, may re-derive). Otherwise → Hybrid.
Why it matters: Treating all deliberation as synthesis wastes capacity; treating all as verification misses synthesis opportunities. Mode selection matches mechanism to situation — the heart of the empirical gain documented by Wang et al.
🛡️ Constraint-aware execution + cascade detection
What it does: Before Stage 1, computes whether K is viable given the context window (cache ≤ 60%, deliberation budget ≥ 2K tokens, K ≥ 3). Before any iteration N>1, runs a four-check diagnostic that catches contamination cascade — when the model treats its own prior output as authoritative and reasoning weakens.
Why it matters: Heavy thinking in a resource vacuum is specification fantasy. The skill aborts to enriched single-pass when K can't fit, and stops iterating the moment reasoning quality degrades — turning an empirically documented failure mode (Wang et al. §5) into a deterministic gate.
Use cases
| Scenario | Mode | What you get |
|---|
| Architecture decision with irreversible commit | Deep · Synthesis | Recommendation + named tensions resolved by criterion + High/Moderate/Low confidence + one-sentence "what would change this conclusion" |
| Hard math/algorithm with verifiable answer | Standard · Verification | Boxed answer + verification of consensus reasoning + mined dissent (the rigorous minority that may catch shared blind spots) |
| Diagnostic investigation under uncertainty | Standard · Hybrid | Working hypothesis + ranked alternatives + edge cases the majority missed |
| Multi-stakeholder strategic decision | Deep · Synthesis | Integrated answer absorbing partial truths from each lens + explicit caveat naming what would invalidate it |
| Creative review where strong voice matters | Light · Voice-anchor | Anchored output refined by structural critiques — committee average suppressed |
How it works
constraint-check → K parallel trajectories → prune+shuffle cache →
classify mode → deliberate under hierarchical criteria →
confidence → answer
- Constraint gate.
Run scripts/constraint_check.py decides whether K is viable. Fails fast to enriched single-pass when not.
- Stage 1 — parallel. K independent trajectories at temperature ≥ 0.9. For Tier 2 problems, the five universal lenses (Anatomy / Mechanism / Purpose / Context / Trajectory) provide structural diversity that temperature alone does not.
- Cache construction. Each trajectory pruned to ≤30% of original (final answer + key steps + branching decisions + error-recovery survive). Order shuffled to defeat recency bias.
- Mode selection.
Run scripts/mode_select.py classifies the trajectory landscape into Verification / Synthesis / Hybrid based on agreement ratio.
- Stage 2 — deliberate. Synthesis under six criteria in order: Correctness → Completeness → Consistency → Elegance → Operability → Robustness. Tensions named explicitly, resolved by criterion (criterion documented in output).
- Critical check. Could ALL trajectories share an error? If so, re-derive from scratch using their errors as negative examples.
- Output. Answer first. Confidence stated. Meta-analysis suppressed unless requested or confidence is Low.
Architecture
heavy-think/
├── SKILL.md # Activation, calibration, pocket reference (≤300 lines)
├── references/ # Lazy-loaded — only when needed
│ ├── stages.md # Full Stage 1+2 protocol + 5 universal lenses + domain catalog
│ ├── failure-modes.md # 6 named failure modes (collapse, cascade, ...)
│ ├── verification.md # Binary checklist before delivery
│ └── advanced.md # Iteration mechanics, dual-model, RLVR, empirical defaults
└── scripts/ # Deterministic gates (stdlib only)
├── constraint_check.py # Cache + K + latency viability
├── mode_select.py # Verification / Synthesis / Hybrid classifier
└── pre_iteration.py # Cascade detection before N>1
The skill follows its own §Protocol-Overload mitigation: SKILL.md body stays ≤300 lines and offloads detail to lazy-loaded references. Strange-loop closed.
Requirements
- Claude Code ≥ 1.0.0
- Python ≥ 3.8 (scripts use only the standard library — no
pip install needed)
- Best with frontier models (Opus 4.7, Sonnet 4.6); usable on Haiku 4.5 with reduced K
- 100k+ token context recommended for K=5 with full deliberation budget
Compatibility
| Platform | Status |
|---|
| Claude Code | ✅ Native |
| Cursor / Codex / Gemini CLI / Copilot | ✅ Agent Skills format |
| Anthropic API direct | ✅ Use SKILL.md as system prompt fragment |
Language
Source language: English (technical reasoning domain). The skill operates in the user's query language at runtime — output language matches input language by default (per §Output structure). Japanese math problem → Japanese answer. Portuguese strategic question → Portuguese deliberation.
License
Proprietary. © 2026 l0z4n0. See LICENSE.md.
Footer
- Version: 3.1.1
- Author: @l0z4n0
- Empirical basis: Wang et al. (2026), HeavySkill
- Quality: Validated by skill-architect (25/30) and anthropic-grade-optimizer (100/A on Opus 4.7)
<a id="português"></a>
🇧🇷 Português
A maioria das falhas de raciocínio não é falha de inteligência — é falha de independência. Um único passe de raciocínio colapsa na primeira interpretação plausível. O HeavyThink força o modelo a gerar K trajetórias independentes e então delibera sobre elas sob critérios explícitos — transformando correção em algo que o modelo conquista, não apenas produz.
Base empírica: Wang et al. (2026), HeavySkill. Raciocínio paralelo + deliberação sequencial supera passe único e votação Best-of-N em tarefas verificáveis; a deliberação produz respostas corretas ausentes em qualquer trajetória individual em ~50% dos testes com modelos de fronteira.
Instalação
myclaude install heavy-think
Após a instalação, a skill fica disponível em .claude/skills/heavy-think/. Ativa automaticamente em consultas com peso de raciocínio e pode ser invocada explicitamente com frases como "pensa pesado sobre…", "delibera sobre…" ou "heavy thinking nisso".
Para quem é
Sim, se você:
- Enfrenta problemas onde um passe único parece insuficiente (decisões arquiteturais, matemática/código difícil, investigação diagnóstica, análise multi-stakeholder).
- Trabalha com modelos de fronteira (Opus 4.7, Sonnet 4.6) onde o custo da deliberação se justifica pelo risco.
- Quer síntese guiada por critérios em vez de "média de K opiniões".
Não, se você:
- Precisa de respostas factuais rápidas — heavy thinking aqui é overhead.
- Trabalha principalmente em tarefas criativas subjetivas — empiricamente, ganhos são marginais ou negativos (use modo voice-anchor se necessário).
- Tem fluxos com restrição temporal onde K chamadas paralelas estouram o budget de latência.
Quick start
Você: "Arquiteta a camada de dados de um SaaS multi-tenant com isolamento
estrito e analytics por tenant. Heavy think nisso."
HeavyThink (internamente):
1. Verificação de restrições: K=5 cabe na janela de contexto — prossegue.
2. Gera 5 trajetórias independentes (lentes Anatomia / Mecanismo /
Propósito / Contexto / Trajetória).
3. Seleção de modo: concordância = 0.4 → modo SÍNTESE.
4. Resolve tensões por critério (Correção > Completude >
Consistência > Elegância > Operabilidade > Robustez).
5. Saída com resposta primeiro; meta-análise só sob demanda.
Você vê: recomendação arquitetural clara com nível de confiança e
uma frase sobre o que mudaria a conclusão — não um tour pelo
processo deliberativo.
Features
🧠 Intensidade de ativação calibrada (Light / Standard / Deep)
O que faz: Escolhe K (trajetórias paralelas) e N (iterações) com base no risco — Light (3·1) para decisões reversíveis e bounded, Standard (5·1) para a maioria dos casos, Deep (5–8 · 1–2) para decisões irreversíveis multi-domínio.
Por que importa: K=5 sempre é desperdício em tarefas simples e insuficiente nas difíceis. A heurística decide em uma checagem sequencial, eliminando capacidade que você não precisa pagar.
⚙️ Deliberação dual-mode (Verificação / Síntese / Híbrido)
O que faz: Classifica o panorama de trajetórias antes de deliberar. ≥75% de concordância em tarefas verificáveis → Verificação (valida consenso, minera dissidência). <50% → Síntese (polinização cruzada, pode re-derivar). Caso contrário → Híbrido.
Por que importa: Tratar toda deliberação como síntese desperdiça capacidade; tratar toda como verificação perde oportunidades de síntese. A seleção de modo casa o mecanismo com a situação — o coração do ganho empírico documentado por Wang et al.
🛡️ Execução constraint-aware + detecção de cascata
O que faz: Antes do Stage 1, computa se K é viável dado o contexto (cache ≤ 60%, budget de deliberação ≥ 2K tokens, K ≥ 3). Antes de qualquer iteração N>1, executa um diagnóstico de quatro checks que captura cascata de contaminação — quando o modelo trata a própria saída anterior como autoritativa e o raciocínio enfraquece.
Por que importa: Heavy thinking em vácuo de recursos é fantasia de especificação. A skill aborta para single-pass enriquecido quando K não cabe, e para de iterar no instante em que a qualidade do raciocínio degrada — transformando um modo de falha empiricamente documentado (Wang et al. §5) em portão determinístico.
Casos de uso
| Cenário | Modo | O que você recebe |
|---|
| Decisão arquitetural com commit irreversível | Deep · Síntese | Recomendação + tensões nomeadas resolvidas por critério + confiança Alta/Moderada/Baixa + frase única sobre o que mudaria a conclusão |
| Matemática/algoritmo difícil com resposta verificável | Standard · Verificação | Resposta em \boxed{} + verificação do consenso + dissidência minerada (a minoria rigorosa que pode pegar pontos cegos compartilhados) |
| Investigação diagnóstica sob incerteza | Standard · Híbrido | Hipótese de trabalho + alternativas ranqueadas + edge cases que a maioria perdeu |
| Decisão estratégica multi-stakeholder | Deep · Síntese | Resposta integrada absorvendo verdades parciais de cada lente + caveat explícito sobre o que invalidaria |
| Revisão criativa onde voz forte importa | Light · Voice-anchor | Saída ancorada refinada por críticas estruturais — média de comitê suprimida |
Como funciona
verificação de restrições → K trajetórias paralelas → prune + shuffle cache →
classifica modo → delibera sob critérios hierárquicos →
confiança → resposta
- Portão de restrições.
Run scripts/constraint_check.py decide se K é viável. Aborta rápido para single-pass enriquecido quando não.
- Stage 1 — paralelo. K trajetórias independentes a temperatura ≥ 0.9. Para problemas Tier 2, as cinco lentes universais (Anatomia / Mecanismo / Propósito / Contexto / Trajetória) fornecem diversidade estrutural que temperatura sozinha não produz.
- Construção de cache. Cada trajetória podada a ≤30% do original (resposta final + passos-chave + decisões de bifurcação + recuperação de erro sobrevivem). Ordem embaralhada para derrotar viés de recência.
- Seleção de modo.
Run scripts/mode_select.py classifica o panorama em Verificação / Síntese / Híbrido baseado em razão de concordância.
- Stage 2 — deliberar. Síntese sob seis critérios em ordem: Correção → Completude → Consistência → Elegância → Operabilidade → Robustez. Tensões nomeadas explicitamente, resolvidas por critério (critério documentado na saída).
- Check crítico. Poderiam TODAS as trajetórias compartilhar um erro? Se sim, re-derivar do zero usando os erros como exemplos negativos.
- Saída. Resposta primeiro. Confiança declarada. Meta-análise suprimida exceto sob demanda ou se confiança for Baixa.
Arquitetura
A skill segue a própria mitigação §Protocol-Overload: corpo do SKILL.md ≤300 linhas, detalhes em referências lazy-loaded. Strange-loop fechado.
Requisitos
- Claude Code ≥ 1.0.0
- Python ≥ 3.8 (scripts usam apenas a stdlib — sem
pip install)
- Melhor com modelos de fronteira (Opus 4.7, Sonnet 4.6); usável em Haiku 4.5 com K reduzido
- 100k+ tokens de contexto recomendados para K=5 com budget de deliberação completo
Compatibilidade
| Plataforma | Status |
|---|
| Claude Code | ✅ Nativo |
| Cursor / Codex / Gemini CLI / Copilot | ✅ Formato Agent Skills |
| API Anthropic direta | ✅ Use SKILL.md como fragmento de system prompt |
Idioma
Idioma fonte: Inglês (domínio de raciocínio técnico). A skill opera no idioma da consulta em runtime — saída casa entrada por padrão. Pergunta em português → deliberação em português. Math problem em japonês → resposta em japonês.
Licença
Proprietária. © 2026 l0z4n0. Veja LICENSE.md.
Footer
- Versão: 3.1.1
- Autor: @l0z4n0
- Base empírica: Wang et al. (2026), HeavySkill
- Qualidade: Validada por skill-architect (25/30) e anthropic-grade-optimizer (100/A em Opus 4.7)
<a id="español"></a>
🇪🇸 Español
La mayoría de los fallos de razonamiento no son fallos de inteligencia — son fallos de independencia. Un solo pase de razonamiento colapsa en la primera interpretación plausible. HeavyThink fuerza al modelo a generar K trayectorias independientes y luego delibera sobre ellas bajo criterios explícitos — convirtiendo la corrección en algo que el modelo gana, no solo produce.
Base empírica: Wang et al. (2026), HeavySkill. El razonamiento paralelo + deliberación secuencial supera al pase único y a la votación Best-of-N en tareas verificables; la deliberación produce respuestas correctas ausentes en cualquier trayectoria individual en ~50% de los ensayos con modelos de frontera.
Instalación
myclaude install heavy-think
Tras la instalación, la skill queda disponible en .claude/skills/heavy-think/. Se activa automáticamente en consultas con peso de razonamiento y puede invocarse explícitamente con frases como "piensa fuerte en…", "delibera sobre…" o "heavy thinking en esto".
¿Es para mí?
Sí, si tú:
- Enfrentas problemas donde un pase único se siente insuficiente (decisiones arquitecturales, matemáticas/código difícil, investigación diagnóstica, análisis multi-stakeholder).
- Trabajas con modelos de frontera (Opus 4.7, Sonnet 4.6) donde el coste de deliberación se justifica por el riesgo.
- Quieres síntesis guiada por criterios en lugar de "promedio de K opiniones".
No, si tú:
- Necesitas respuestas fácticas rápidas — heavy thinking aquí es overhead.
- Trabajas principalmente en tareas creativas subjetivas — empíricamente, las ganancias son marginales o negativas (usa modo voice-anchor si es necesario).
- Tienes flujos con restricción temporal donde K llamadas paralelas revientan el presupuesto de latencia.
Quick start
Tú: "Arquitecta la capa de datos de un SaaS multi-tenant con aislamiento
estricto y analytics por tenant. Heavy think esto."
HeavyThink (internamente):
1. Comprobación de restricciones: K=5 cabe en la ventana de contexto.
2. Genera 5 trayectorias independientes (lentes Anatomía / Mecanismo /
Propósito / Contexto / Trayectoria).
3. Selección de modo: acuerdo = 0.4 → modo SÍNTESIS.
4. Resuelve tensiones por criterio (Corrección > Completitud >
Consistencia > Elegancia > Operabilidad > Robustez).
5. Salida con respuesta primero; meta-análisis solo bajo petición.
Tú ves: recomendación arquitectural clara con nivel de confianza
y una frase sobre qué cambiaría la conclusión — no un recorrido
del proceso deliberativo.
Features
🧠 Intensidad de activación calibrada (Light / Standard / Deep)
Qué hace: Elige K (trayectorias paralelas) y N (iteraciones) según el riesgo — Light (3·1) para decisiones reversibles y acotadas, Standard (5·1) para la mayoría de casos, Deep (5–8 · 1–2) para decisiones irreversibles multi-dominio.
Por qué importa: K=5 siempre es derroche en tareas simples e insuficiente en las difíciles. La heurística decide en una verificación secuencial, eliminando capacidad que no necesitas pagar.
⚙️ Deliberación dual-mode (Verificación / Síntesis / Híbrido)
Qué hace: Clasifica el panorama de trayectorias antes de deliberar. ≥75% de acuerdo en tareas verificables → Verificación. <50% → Síntesis. En otro caso → Híbrido.
Por qué importa: Tratar toda deliberación como síntesis desperdicia capacidad; tratar toda como verificación pierde oportunidades. La selección de modo emparenta el mecanismo con la situación — el corazón de la ganancia empírica documentada por Wang et al.
🛡️ Ejecución constraint-aware + detección de cascada
Qué hace: Antes del Stage 1, computa si K es viable dado el contexto. Antes de cualquier iteración N>1, ejecuta un diagnóstico de cuatro checks que captura cascada de contaminación — cuando el modelo trata su propia salida previa como autoritativa y el razonamiento se debilita.
Por qué importa: Heavy thinking en vacío de recursos es fantasía de especificación. La skill aborta a single-pass enriquecido cuando K no cabe, y deja de iterar en el instante en que la calidad del razonamiento degrada.
Casos de uso
| Escenario | Modo | Lo que recibes |
|---|
| Decisión arquitectural con commit irreversible | Deep · Síntesis | Recomendación + tensiones nombradas resueltas por criterio + confianza Alta/Moderada/Baja + frase única sobre qué cambiaría la conclusión |
| Matemática/algoritmo difícil con respuesta verificable | Standard · Verificación | Respuesta en \boxed{} + verificación del consenso + disidencia minada |
| Investigación diagnóstica bajo incertidumbre | Standard · Híbrido | Hipótesis de trabajo + alternativas ranqueadas + edge cases que la mayoría perdió |
| Decisión estratégica multi-stakeholder | Deep · Síntesis | Respuesta integrada absorbiendo verdades parciales de cada lente + caveat explícito |
| Revisión creativa donde la voz fuerte importa | Light · Voice-anchor | Salida anclada refinada por críticas estructurales — promedio de comité suprimido |
Cómo funciona
comprobación de restricciones → K trayectorias paralelas → prune + shuffle cache →
clasifica modo → delibera bajo criterios jerárquicos →
confianza → respuesta
Mismo loop que arriba: portón de restricciones → Stage 1 paralelo (con cinco lentes universales para Tier 2) → construcción de cache (poda ≤30%, shuffle anti-recencia) → selección de modo determinística → Stage 2 deliberación bajo seis criterios en orden → check crítico (¿podrían TODAS estar mal?) → respuesta primero con confianza explícita.
Requisitos
- Claude Code ≥ 1.0.0
- Python ≥ 3.8 (scripts usan solo la stdlib — sin
pip install)
- Mejor con modelos de frontera (Opus 4.7, Sonnet 4.6); usable en Haiku 4.5 con K reducido
- 100k+ tokens de contexto recomendados para K=5 con presupuesto de deliberación completo
Compatibilidad
| Plataforma | Estado |
|---|
| Claude Code | ✅ Nativo |
| Cursor / Codex / Gemini CLI / Copilot | ✅ Formato Agent Skills |
| API Anthropic directa | ✅ Use SKILL.md como fragmento de system prompt |
Idioma
Idioma fuente: Inglés (dominio de razonamiento técnico). La skill opera en el idioma de la consulta en runtime — la salida iguala la entrada por defecto.
Licencia
Propietaria. © 2026 l0z4n0. Ver LICENSE.md.
Footer
- Versión: 3.1.1
- Autor: @l0z4n0
- Base empírica: Wang et al. (2026), HeavySkill
- Calidad: Validada por skill-architect (25/30) y anthropic-grade-optimizer (100/A en Opus 4.7)
Version: 3.1.1 | License: Proprietary | Author: @l0z4n0

<sub>Quality-validated by MyClaude Studio Engine | Browse marketplace</sub>