Heavy Think — myClaude | myClaude

heavy think

FREE

Verified

FREE

heavy think

Verified|30|heavy-think-3.1.1.zip0.0 MBProprietary

Execute heavy parallel reasoning followed by criterion-driven synthesis when single-pass thinking is insufficient. K independent trajectories + dual-mode deliberation (verification/synthesis/hybrid) + cascade detection. Empirically grounded in Wang et al. (2026).

reasoningdeliberationdeep-thinkingparallel-reasoning

l0z4n0 🧙‍♂️

👑 CEO

CEO

@l0z4n0

🟤Bronze IILv5

19 items

l0z4n0 🧙‍♂️

🟤Lv5👑 CEO

@l0z4n0

HeavyThink

Heavy parallel reasoning + criterion-driven synthesis as an inner skill — for problems where one shot is not enough.

🇬🇧 English · 🇧🇷 Português · 🇪🇸 Español

🇬🇧 English

Most reasoning failures are not failures of intelligence — they are failures of independence. A single reasoning pass collapses into the first plausible framing. HeavyThink forces the model to generate K independent trajectories, then deliberates over them under explicit criteria — turning correctness into something the model has to earn, not merely output.

Empirical basis: Wang et al. (2026), HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness. Parallel reasoning + sequential deliberation outperforms single-pass and Best-of-N voting on verifiable tasks; deliberation produces correct answers absent from any individual trajectory in ~50% of frontier-model trials.

Install

myclaude install heavy-think

After installation, the skill is available at .claude/skills/heavy-think/. It auto-activates on reasoning-heavy queries and can be invoked explicitly with phrases like "think hard about…", "deliberate on…", or "heavy thinking on…".

Also compatible with: any tool that loads Agent Skills format (SKILL.md + frontmatter) — Cursor, Codex, Gemini CLI, Copilot, and the wider ecosystem.

Is this for me?

Yes, if you:

Tackle problems where a single reasoning pass feels insufficient (architecture decisions, hard math/code, diagnostic investigations, multi-stakeholder analysis).
Work with frontier models (Opus 4.7, Sonnet 4.6) where deliberation cost is justified by stakes.
Want criterion-driven synthesis instead of "average of K opinions."

No, if you:

Need fast factual answers or retrieval — heavy thinking is overhead here.
Work mostly on subjective creative tasks — empirically, gains are marginal or negative there (use voice-anchor mode if you must).
Have time-critical workflows where K parallel calls would blow the latency budget.

Quick start

You: "Architect the data layer for a multi-tenant SaaS with strict isolation
      and per-tenant analytics. Heavy think this."

HeavyThink (internally):
  1. Constraint check: K=5 fits the context window — proceed.
  2. Generate 5 independent trajectories (Anatomy / Mechanism / Purpose
     / Context / Trajectory lenses).
  3. Mode select: agreement = 0.4 → SYNTHESIS mode.
  4. Resolve tensions via criteria (Correctness > Completeness >
     Consistency > Elegance > Operability > Robustness).
  5. Output answer-first; meta-analysis only on request.

You see: a clear architectural recommendation with confidence level
and one sentence on what would change the conclusion — not a tour
of the deliberation.

Features

🧠 Calibrated activation intensity (Light / Standard / Deep)

What it does: Picks K (parallel trajectories) and N (iterations) based on stakes — Light (3·1) for bounded reversible decisions, Standard (5·1) for most cases, Deep (5–8 · 1–2) for irreversible multi-domain decisions. Why it matters: K=5 always is wasteful on simple tasks and insufficient on hard ones. The calibration heuristic decides in one sequential check, so you stop paying for capacity you don't need.

⚙️ Dual-mode deliberation (Verification / Synthesis / Hybrid)

What it does: Classifies the trajectory landscape before deliberating. ≥75% agreement on verifiable tasks → Verification (validate consensus, mine dissent). <50% agreement → Synthesis (cross-pollinate, may re-derive). Otherwise → Hybrid. Why it matters: Treating all deliberation as synthesis wastes capacity; treating all as verification misses synthesis opportunities. Mode selection matches mechanism to situation — the heart of the empirical gain documented by Wang et al.

🛡️ Constraint-aware execution + cascade detection

What it does: Before Stage 1, computes whether K is viable given the context window (cache ≤ 60%, deliberation budget ≥ 2K tokens, K ≥ 3). Before any iteration N>1, runs a four-check diagnostic that catches contamination cascade — when the model treats its own prior output as authoritative and reasoning weakens. Why it matters: Heavy thinking in a resource vacuum is specification fantasy. The skill aborts to enriched single-pass when K can't fit, and stops iterating the moment reasoning quality degrades — turning an empirically documented failure mode (Wang et al. §5) into a deterministic gate.

Use cases

Scenario	Mode	What you get
Architecture decision with irreversible commit	Deep · Synthesis	Recommendation + named tensions resolved by criterion + High/Moderate/Low confidence + one-sentence "what would change this conclusion"
Hard math/algorithm with verifiable answer	Standard · Verification	Boxed answer + verification of consensus reasoning + mined dissent (the rigorous minority that may catch shared blind spots)
Diagnostic investigation under uncertainty	Standard · Hybrid	Working hypothesis + ranked alternatives + edge cases the majority missed
Multi-stakeholder strategic decision	Deep · Synthesis	Integrated answer absorbing partial truths from each lens + explicit caveat naming what would invalidate it
Creative review where strong voice matters	Light · Voice-anchor	Anchored output refined by structural critiques — committee average suppressed

How it works

constraint-check → K parallel trajectories → prune+shuffle cache →
classify mode → deliberate under hierarchical criteria →
confidence → answer

Constraint gate. Run scripts/constraint_check.py decides whether K is viable. Fails fast to enriched single-pass when not.
Stage 1 — parallel. K independent trajectories at temperature ≥ 0.9. For Tier 2 problems, the five universal lenses (Anatomy / Mechanism / Purpose / Context / Trajectory) provide structural diversity that temperature alone does not.
Cache construction. Each trajectory pruned to ≤30% of original (final answer + key steps + branching decisions + error-recovery survive). Order shuffled to defeat recency bias.
Mode selection. Run scripts/mode_select.py classifies the trajectory landscape into Verification / Synthesis / Hybrid based on agreement ratio.
Stage 2 — deliberate. Synthesis under six criteria in order: Correctness → Completeness → Consistency → Elegance → Operability → Robustness. Tensions named explicitly, resolved by criterion (criterion documented in output).
Critical check. Could ALL trajectories share an error? If so, re-derive from scratch using their errors as negative examples.
Output. Answer first. Confidence stated. Meta-analysis suppressed unless requested or confidence is Low.

Architecture

heavy-think/
├── SKILL.md                 # Activation, calibration, pocket reference (≤300 lines)
├── references/              # Lazy-loaded — only when needed
│   ├── stages.md            # Full Stage 1+2 protocol + 5 universal lenses + domain catalog
│   ├── failure-modes.md     # 6 named failure modes (collapse, cascade, ...)
│   ├── verification.md      # Binary checklist before delivery
│   └── advanced.md          # Iteration mechanics, dual-model, RLVR, empirical defaults
└── scripts/                 # Deterministic gates (stdlib only)
    ├── constraint_check.py  # Cache + K + latency viability
    ├── mode_select.py       # Verification / Synthesis / Hybrid classifier
    └── pre_iteration.py     # Cascade detection before N>1

The skill follows its own §Protocol-Overload mitigation: SKILL.md body stays ≤300 lines and offloads detail to lazy-loaded references. Strange-loop closed.

Requirements

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts use only the standard library — no pip install needed)
Best with frontier models (Opus 4.7, Sonnet 4.6); usable on Haiku 4.5 with reduced K
100k+ token context recommended for K=5 with full deliberation budget

Compatibility

Platform	Status
Claude Code	✅ Native
Cursor / Codex / Gemini CLI / Copilot	✅ Agent Skills format
Anthropic API direct	✅ Use SKILL.md as system prompt fragment

Language

Source language: English (technical reasoning domain). The skill operates in the user's query language at runtime — output language matches input language by default (per §Output structure). Japanese math problem → Japanese answer. Portuguese strategic question → Portuguese deliberation.

License

Footer

Version: 3.1.1
Author: @l0z4n0
Empirical basis: Wang et al. (2026), HeavySkill
Quality: Validated by skill-architect (25/30) and anthropic-grade-optimizer (100/A on Opus 4.7)

🇧🇷 Português

A maioria das falhas de raciocínio não é falha de inteligência — é falha de independência. Um único passe de raciocínio colapsa na primeira interpretação plausível. O HeavyThink força o modelo a gerar K trajetórias independentes e então delibera sobre elas sob critérios explícitos — transformando correção em algo que o modelo conquista, não apenas produz.

Base empírica: Wang et al. (2026), HeavySkill. Raciocínio paralelo + deliberação sequencial supera passe único e votação Best-of-N em tarefas verificáveis; a deliberação produz respostas corretas ausentes em qualquer trajetória individual em ~50% dos testes com modelos de fronteira.

Instalação

myclaude install heavy-think

Após a instalação, a skill fica disponível em .claude/skills/heavy-think/. Ativa automaticamente em consultas com peso de raciocínio e pode ser invocada explicitamente com frases como "pensa pesado sobre…", "delibera sobre…" ou "heavy thinking nisso".

Para quem é

Sim, se você:

Enfrenta problemas onde um passe único parece insuficiente (decisões arquiteturais, matemática/código difícil, investigação diagnóstica, análise multi-stakeholder).
Trabalha com modelos de fronteira (Opus 4.7, Sonnet 4.6) onde o custo da deliberação se justifica pelo risco.
Quer síntese guiada por critérios em vez de "média de K opiniões".

Não, se você:

Precisa de respostas factuais rápidas — heavy thinking aqui é overhead.
Trabalha principalmente em tarefas criativas subjetivas — empiricamente, ganhos são marginais ou negativos (use modo voice-anchor se necessário).
Tem fluxos com restrição temporal onde K chamadas paralelas estouram o budget de latência.

Quick start

Você: "Arquiteta a camada de dados de um SaaS multi-tenant com isolamento
       estrito e analytics por tenant. Heavy think nisso."

HeavyThink (internamente):
  1. Verificação de restrições: K=5 cabe na janela de contexto — prossegue.
  2. Gera 5 trajetórias independentes (lentes Anatomia / Mecanismo /
     Propósito / Contexto / Trajetória).
  3. Seleção de modo: concordância = 0.4 → modo SÍNTESE.
  4. Resolve tensões por critério (Correção > Completude >
     Consistência > Elegância > Operabilidade > Robustez).
  5. Saída com resposta primeiro; meta-análise só sob demanda.

Você vê: recomendação arquitetural clara com nível de confiança e
uma frase sobre o que mudaria a conclusão — não um tour pelo
processo deliberativo.

Features

🧠 Intensidade de ativação calibrada (Light / Standard / Deep)

O que faz: Escolhe K (trajetórias paralelas) e N (iterações) com base no risco — Light (3·1) para decisões reversíveis e bounded, Standard (5·1) para a maioria dos casos, Deep (5–8 · 1–2) para decisões irreversíveis multi-domínio. Por que importa: K=5 sempre é desperdício em tarefas simples e insuficiente nas difíceis. A heurística decide em uma checagem sequencial, eliminando capacidade que você não precisa pagar.

⚙️ Deliberação dual-mode (Verificação / Síntese / Híbrido)

O que faz: Classifica o panorama de trajetórias antes de deliberar. ≥75% de concordância em tarefas verificáveis → Verificação (valida consenso, minera dissidência). <50% → Síntese (polinização cruzada, pode re-derivar). Caso contrário → Híbrido. Por que importa: Tratar toda deliberação como síntese desperdiça capacidade; tratar toda como verificação perde oportunidades de síntese. A seleção de modo casa o mecanismo com a situação — o coração do ganho empírico documentado por Wang et al.

🛡️ Execução constraint-aware + detecção de cascata

O que faz: Antes do Stage 1, computa se K é viável dado o contexto (cache ≤ 60%, budget de deliberação ≥ 2K tokens, K ≥ 3). Antes de qualquer iteração N>1, executa um diagnóstico de quatro checks que captura cascata de contaminação — quando o modelo trata a própria saída anterior como autoritativa e o raciocínio enfraquece. Por que importa: Heavy thinking em vácuo de recursos é fantasia de especificação. A skill aborta para single-pass enriquecido quando K não cabe, e para de iterar no instante em que a qualidade do raciocínio degrada — transformando um modo de falha empiricamente documentado (Wang et al. §5) em portão determinístico.

Casos de uso

Cenário	Modo	O que você recebe
Decisão arquitetural com commit irreversível	Deep · Síntese	Recomendação + tensões nomeadas resolvidas por critério + confiança Alta/Moderada/Baixa + frase única sobre o que mudaria a conclusão
Matemática/algoritmo difícil com resposta verificável	Standard · Verificação	Resposta em \boxed{} + verificação do consenso + dissidência minerada (a minoria rigorosa que pode pegar pontos cegos compartilhados)
Investigação diagnóstica sob incerteza	Standard · Híbrido	Hipótese de trabalho + alternativas ranqueadas + edge cases que a maioria perdeu
Decisão estratégica multi-stakeholder	Deep · Síntese	Resposta integrada absorvendo verdades parciais de cada lente + caveat explícito sobre o que invalidaria
Revisão criativa onde voz forte importa	Light · Voice-anchor	Saída ancorada refinada por críticas estruturais — média de comitê suprimida

Como funciona

verificação de restrições → K trajetórias paralelas → prune + shuffle cache →
classifica modo → delibera sob critérios hierárquicos →
confiança → resposta

Portão de restrições. Run scripts/constraint_check.py decide se K é viável. Aborta rápido para single-pass enriquecido quando não.
Stage 1 — paralelo. K trajetórias independentes a temperatura ≥ 0.9. Para problemas Tier 2, as cinco lentes universais (Anatomia / Mecanismo / Propósito / Contexto / Trajetória) fornecem diversidade estrutural que temperatura sozinha não produz.
Construção de cache. Cada trajetória podada a ≤30% do original (resposta final + passos-chave + decisões de bifurcação + recuperação de erro sobrevivem). Ordem embaralhada para derrotar viés de recência.
Seleção de modo. Run scripts/mode_select.py classifica o panorama em Verificação / Síntese / Híbrido baseado em razão de concordância.
Stage 2 — deliberar. Síntese sob seis critérios em ordem: Correção → Completude → Consistência → Elegância → Operabilidade → Robustez. Tensões nomeadas explicitamente, resolvidas por critério (critério documentado na saída).
Check crítico. Poderiam TODAS as trajetórias compartilhar um erro? Se sim, re-derivar do zero usando os erros como exemplos negativos.
Saída. Resposta primeiro. Confiança declarada. Meta-análise suprimida exceto sob demanda ou se confiança for Baixa.

Arquitetura

A skill segue a própria mitigação §Protocol-Overload: corpo do SKILL.md ≤300 linhas, detalhes em referências lazy-loaded. Strange-loop fechado.

Requisitos

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts usam apenas a stdlib — sem pip install)
Melhor com modelos de fronteira (Opus 4.7, Sonnet 4.6); usável em Haiku 4.5 com K reduzido
100k+ tokens de contexto recomendados para K=5 com budget de deliberação completo

Compatibilidade

Plataforma	Status
Claude Code	✅ Nativo
Cursor / Codex / Gemini CLI / Copilot	✅ Formato Agent Skills
API Anthropic direta	✅ Use SKILL.md como fragmento de system prompt

Idioma

Idioma fonte: Inglês (domínio de raciocínio técnico). A skill opera no idioma da consulta em runtime — saída casa entrada por padrão. Pergunta em português → deliberação em português. Math problem em japonês → resposta em japonês.

Licença

Footer

Versão: 3.1.1
Autor: @l0z4n0
Base empírica: Wang et al. (2026), HeavySkill
Qualidade: Validada por skill-architect (25/30) e anthropic-grade-optimizer (100/A em Opus 4.7)

🇪🇸 Español

La mayoría de los fallos de razonamiento no son fallos de inteligencia — son fallos de independencia. Un solo pase de razonamiento colapsa en la primera interpretación plausible. HeavyThink fuerza al modelo a generar K trayectorias independientes y luego delibera sobre ellas bajo criterios explícitos — convirtiendo la corrección en algo que el modelo gana, no solo produce.

Base empírica: Wang et al. (2026), HeavySkill. El razonamiento paralelo + deliberación secuencial supera al pase único y a la votación Best-of-N en tareas verificables; la deliberación produce respuestas correctas ausentes en cualquier trayectoria individual en ~50% de los ensayos con modelos de frontera.

Instalación

myclaude install heavy-think

Tras la instalación, la skill queda disponible en .claude/skills/heavy-think/. Se activa automáticamente en consultas con peso de razonamiento y puede invocarse explícitamente con frases como "piensa fuerte en…", "delibera sobre…" o "heavy thinking en esto".

¿Es para mí?

Sí, si tú:

Enfrentas problemas donde un pase único se siente insuficiente (decisiones arquitecturales, matemáticas/código difícil, investigación diagnóstica, análisis multi-stakeholder).
Trabajas con modelos de frontera (Opus 4.7, Sonnet 4.6) donde el coste de deliberación se justifica por el riesgo.
Quieres síntesis guiada por criterios en lugar de "promedio de K opiniones".

No, si tú:

Necesitas respuestas fácticas rápidas — heavy thinking aquí es overhead.
Trabajas principalmente en tareas creativas subjetivas — empíricamente, las ganancias son marginales o negativas (usa modo voice-anchor si es necesario).
Tienes flujos con restricción temporal donde K llamadas paralelas revientan el presupuesto de latencia.

Quick start

Tú: "Arquitecta la capa de datos de un SaaS multi-tenant con aislamiento
     estricto y analytics por tenant. Heavy think esto."

HeavyThink (internamente):
  1. Comprobación de restricciones: K=5 cabe en la ventana de contexto.
  2. Genera 5 trayectorias independientes (lentes Anatomía / Mecanismo /
     Propósito / Contexto / Trayectoria).
  3. Selección de modo: acuerdo = 0.4 → modo SÍNTESIS.
  4. Resuelve tensiones por criterio (Corrección > Completitud >
     Consistencia > Elegancia > Operabilidad > Robustez).
  5. Salida con respuesta primero; meta-análisis solo bajo petición.

Tú ves: recomendación arquitectural clara con nivel de confianza
y una frase sobre qué cambiaría la conclusión — no un recorrido
del proceso deliberativo.

Features

🧠 Intensidad de activación calibrada (Light / Standard / Deep)

Qué hace: Elige K (trayectorias paralelas) y N (iteraciones) según el riesgo — Light (3·1) para decisiones reversibles y acotadas, Standard (5·1) para la mayoría de casos, Deep (5–8 · 1–2) para decisiones irreversibles multi-dominio. Por qué importa: K=5 siempre es derroche en tareas simples e insuficiente en las difíciles. La heurística decide en una verificación secuencial, eliminando capacidad que no necesitas pagar.

⚙️ Deliberación dual-mode (Verificación / Síntesis / Híbrido)

Qué hace: Clasifica el panorama de trayectorias antes de deliberar. ≥75% de acuerdo en tareas verificables → Verificación. <50% → Síntesis. En otro caso → Híbrido. Por qué importa: Tratar toda deliberación como síntesis desperdicia capacidad; tratar toda como verificación pierde oportunidades. La selección de modo emparenta el mecanismo con la situación — el corazón de la ganancia empírica documentada por Wang et al.

🛡️ Ejecución constraint-aware + detección de cascada

Qué hace: Antes del Stage 1, computa si K es viable dado el contexto. Antes de cualquier iteración N>1, ejecuta un diagnóstico de cuatro checks que captura cascada de contaminación — cuando el modelo trata su propia salida previa como autoritativa y el razonamiento se debilita. Por qué importa: Heavy thinking en vacío de recursos es fantasía de especificación. La skill aborta a single-pass enriquecido cuando K no cabe, y deja de iterar en el instante en que la calidad del razonamiento degrada.

Casos de uso

Escenario	Modo	Lo que recibes
Decisión arquitectural con commit irreversible	Deep · Síntesis	Recomendación + tensiones nombradas resueltas por criterio + confianza Alta/Moderada/Baja + frase única sobre qué cambiaría la conclusión
Matemática/algoritmo difícil con respuesta verificable	Standard · Verificación	Respuesta en \boxed{} + verificación del consenso + disidencia minada
Investigación diagnóstica bajo incertidumbre	Standard · Híbrido	Hipótesis de trabajo + alternativas ranqueadas + edge cases que la mayoría perdió
Decisión estratégica multi-stakeholder	Deep · Síntesis	Respuesta integrada absorbiendo verdades parciales de cada lente + caveat explícito
Revisión creativa donde la voz fuerte importa	Light · Voice-anchor	Salida anclada refinada por críticas estructurales — promedio de comité suprimido

Cómo funciona

comprobación de restricciones → K trayectorias paralelas → prune + shuffle cache →
clasifica modo → delibera bajo criterios jerárquicos →
confianza → respuesta

Mismo loop que arriba: portón de restricciones → Stage 1 paralelo (con cinco lentes universales para Tier 2) → construcción de cache (poda ≤30%, shuffle anti-recencia) → selección de modo determinística → Stage 2 deliberación bajo seis criterios en orden → check crítico (¿podrían TODAS estar mal?) → respuesta primero con confianza explícita.

Requisitos

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts usan solo la stdlib — sin pip install)
Mejor con modelos de frontera (Opus 4.7, Sonnet 4.6); usable en Haiku 4.5 con K reducido
100k+ tokens de contexto recomendados para K=5 con presupuesto de deliberación completo

Compatibilidad

Plataforma	Estado
Claude Code	✅ Nativo
Cursor / Codex / Gemini CLI / Copilot	✅ Formato Agent Skills
API Anthropic directa	✅ Use SKILL.md como fragmento de system prompt

Idioma

Idioma fuente: Inglés (dominio de razonamiento técnico). La skill opera en el idioma de la consulta en runtime — la salida iguala la entrada por defecto.

Licencia

Footer

Versión: 3.1.1
Autor: @l0z4n0
Base empírica: Wang et al. (2026), HeavySkill
Calidad: Validada por skill-architect (25/30) y anthropic-grade-optimizer (100/A en Opus 4.7)

Version: 3.1.1 | License: Proprietary | Author: @l0z4n0

<sub>Quality-validated by MyClaude Studio Engine | Browse marketplace</sub>

Reviews (0)

Loading reviews...

More from l0z4n0 🧙‍♂️

Docforge Sync

Skills

@l0z4n0

Docforge Llms

Skills

@l0z4n0

Docforge

Skills

@l0z4n0

Wiring Doctor

Skills

@l0z4n0

K8s Security Advisor

Minds

@l0z4n0

$0-to-1 Squad — Idea to First Dollar

Squads

@l0z4n0

FREE

HeavyThink

Heavy parallel reasoning + criterion-driven synthesis as an inner skill — for problems where one shot is not enough.

🇬🇧 English · 🇧🇷 Português · 🇪🇸 Español

🇬🇧 English

Empirical basis: Wang et al. (2026), HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness. Parallel reasoning + sequential deliberation outperforms single-pass and Best-of-N voting on verifiable tasks; deliberation produces correct answers absent from any individual trajectory in ~50% of frontier-model trials.

Install

myclaude install heavy-think

Also compatible with: any tool that loads Agent Skills format (SKILL.md + frontmatter) — Cursor, Codex, Gemini CLI, Copilot, and the wider ecosystem.

Is this for me?

Yes, if you:

Tackle problems where a single reasoning pass feels insufficient (architecture decisions, hard math/code, diagnostic investigations, multi-stakeholder analysis).
Work with frontier models (Opus 4.7, Sonnet 4.6) where deliberation cost is justified by stakes.
Want criterion-driven synthesis instead of "average of K opinions."

No, if you:

Need fast factual answers or retrieval — heavy thinking is overhead here.
Work mostly on subjective creative tasks — empirically, gains are marginal or negative there (use voice-anchor mode if you must).
Have time-critical workflows where K parallel calls would blow the latency budget.

Quick start

You: "Architect the data layer for a multi-tenant SaaS with strict isolation
      and per-tenant analytics. Heavy think this."

HeavyThink (internally):
  1. Constraint check: K=5 fits the context window — proceed.
  2. Generate 5 independent trajectories (Anatomy / Mechanism / Purpose
     / Context / Trajectory lenses).
  3. Mode select: agreement = 0.4 → SYNTHESIS mode.
  4. Resolve tensions via criteria (Correctness > Completeness >
     Consistency > Elegance > Operability > Robustness).
  5. Output answer-first; meta-analysis only on request.

You see: a clear architectural recommendation with confidence level
and one sentence on what would change the conclusion — not a tour
of the deliberation.

Features

🧠 Calibrated activation intensity (Light / Standard / Deep)

⚙️ Dual-mode deliberation (Verification / Synthesis / Hybrid)

🛡️ Constraint-aware execution + cascade detection

Use cases

Scenario	Mode	What you get
Architecture decision with irreversible commit	Deep · Synthesis	Recommendation + named tensions resolved by criterion + High/Moderate/Low confidence + one-sentence "what would change this conclusion"
Hard math/algorithm with verifiable answer	Standard · Verification	Boxed answer + verification of consensus reasoning + mined dissent (the rigorous minority that may catch shared blind spots)
Diagnostic investigation under uncertainty	Standard · Hybrid	Working hypothesis + ranked alternatives + edge cases the majority missed
Multi-stakeholder strategic decision	Deep · Synthesis	Integrated answer absorbing partial truths from each lens + explicit caveat naming what would invalidate it
Creative review where strong voice matters	Light · Voice-anchor	Anchored output refined by structural critiques — committee average suppressed

How it works

constraint-check → K parallel trajectories → prune+shuffle cache →
classify mode → deliberate under hierarchical criteria →
confidence → answer

Constraint gate. Run scripts/constraint_check.py decides whether K is viable. Fails fast to enriched single-pass when not.
Stage 1 — parallel. K independent trajectories at temperature ≥ 0.9. For Tier 2 problems, the five universal lenses (Anatomy / Mechanism / Purpose / Context / Trajectory) provide structural diversity that temperature alone does not.
Cache construction. Each trajectory pruned to ≤30% of original (final answer + key steps + branching decisions + error-recovery survive). Order shuffled to defeat recency bias.
Mode selection. Run scripts/mode_select.py classifies the trajectory landscape into Verification / Synthesis / Hybrid based on agreement ratio.
Stage 2 — deliberate. Synthesis under six criteria in order: Correctness → Completeness → Consistency → Elegance → Operability → Robustness. Tensions named explicitly, resolved by criterion (criterion documented in output).
Critical check. Could ALL trajectories share an error? If so, re-derive from scratch using their errors as negative examples.
Output. Answer first. Confidence stated. Meta-analysis suppressed unless requested or confidence is Low.

Architecture

heavy-think/
├── SKILL.md                 # Activation, calibration, pocket reference (≤300 lines)
├── references/              # Lazy-loaded — only when needed
│   ├── stages.md            # Full Stage 1+2 protocol + 5 universal lenses + domain catalog
│   ├── failure-modes.md     # 6 named failure modes (collapse, cascade, ...)
│   ├── verification.md      # Binary checklist before delivery
│   └── advanced.md          # Iteration mechanics, dual-model, RLVR, empirical defaults
└── scripts/                 # Deterministic gates (stdlib only)
    ├── constraint_check.py  # Cache + K + latency viability
    ├── mode_select.py       # Verification / Synthesis / Hybrid classifier
    └── pre_iteration.py     # Cascade detection before N>1

The skill follows its own §Protocol-Overload mitigation: SKILL.md body stays ≤300 lines and offloads detail to lazy-loaded references. Strange-loop closed.

Requirements

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts use only the standard library — no pip install needed)
Best with frontier models (Opus 4.7, Sonnet 4.6); usable on Haiku 4.5 with reduced K
100k+ token context recommended for K=5 with full deliberation budget

Compatibility

Platform	Status
Claude Code	✅ Native
Cursor / Codex / Gemini CLI / Copilot	✅ Agent Skills format
Anthropic API direct	✅ Use SKILL.md as system prompt fragment

Language

License

Footer

Version: 3.1.1
Author: @l0z4n0
Empirical basis: Wang et al. (2026), HeavySkill
Quality: Validated by skill-architect (25/30) and anthropic-grade-optimizer (100/A on Opus 4.7)

🇧🇷 Português

Base empírica: Wang et al. (2026), HeavySkill. Raciocínio paralelo + deliberação sequencial supera passe único e votação Best-of-N em tarefas verificáveis; a deliberação produz respostas corretas ausentes em qualquer trajetória individual em ~50% dos testes com modelos de fronteira.

Instalação

myclaude install heavy-think

Para quem é

Sim, se você:

Enfrenta problemas onde um passe único parece insuficiente (decisões arquiteturais, matemática/código difícil, investigação diagnóstica, análise multi-stakeholder).
Trabalha com modelos de fronteira (Opus 4.7, Sonnet 4.6) onde o custo da deliberação se justifica pelo risco.
Quer síntese guiada por critérios em vez de "média de K opiniões".

Não, se você:

Precisa de respostas factuais rápidas — heavy thinking aqui é overhead.
Trabalha principalmente em tarefas criativas subjetivas — empiricamente, ganhos são marginais ou negativos (use modo voice-anchor se necessário).
Tem fluxos com restrição temporal onde K chamadas paralelas estouram o budget de latência.

Quick start

Você: "Arquiteta a camada de dados de um SaaS multi-tenant com isolamento
       estrito e analytics por tenant. Heavy think nisso."

HeavyThink (internamente):
  1. Verificação de restrições: K=5 cabe na janela de contexto — prossegue.
  2. Gera 5 trajetórias independentes (lentes Anatomia / Mecanismo /
     Propósito / Contexto / Trajetória).
  3. Seleção de modo: concordância = 0.4 → modo SÍNTESE.
  4. Resolve tensões por critério (Correção > Completude >
     Consistência > Elegância > Operabilidade > Robustez).
  5. Saída com resposta primeiro; meta-análise só sob demanda.

Você vê: recomendação arquitetural clara com nível de confiança e
uma frase sobre o que mudaria a conclusão — não um tour pelo
processo deliberativo.

Features

🧠 Intensidade de ativação calibrada (Light / Standard / Deep)

⚙️ Deliberação dual-mode (Verificação / Síntese / Híbrido)

🛡️ Execução constraint-aware + detecção de cascata

Casos de uso

Cenário	Modo	O que você recebe
Decisão arquitetural com commit irreversível	Deep · Síntese	Recomendação + tensões nomeadas resolvidas por critério + confiança Alta/Moderada/Baixa + frase única sobre o que mudaria a conclusão
Matemática/algoritmo difícil com resposta verificável	Standard · Verificação	Resposta em \boxed{} + verificação do consenso + dissidência minerada (a minoria rigorosa que pode pegar pontos cegos compartilhados)
Investigação diagnóstica sob incerteza	Standard · Híbrido	Hipótese de trabalho + alternativas ranqueadas + edge cases que a maioria perdeu
Decisão estratégica multi-stakeholder	Deep · Síntese	Resposta integrada absorvendo verdades parciais de cada lente + caveat explícito sobre o que invalidaria
Revisão criativa onde voz forte importa	Light · Voice-anchor	Saída ancorada refinada por críticas estruturais — média de comitê suprimida

Como funciona

verificação de restrições → K trajetórias paralelas → prune + shuffle cache →
classifica modo → delibera sob critérios hierárquicos →
confiança → resposta

Portão de restrições. Run scripts/constraint_check.py decide se K é viável. Aborta rápido para single-pass enriquecido quando não.
Stage 1 — paralelo. K trajetórias independentes a temperatura ≥ 0.9. Para problemas Tier 2, as cinco lentes universais (Anatomia / Mecanismo / Propósito / Contexto / Trajetória) fornecem diversidade estrutural que temperatura sozinha não produz.
Construção de cache. Cada trajetória podada a ≤30% do original (resposta final + passos-chave + decisões de bifurcação + recuperação de erro sobrevivem). Ordem embaralhada para derrotar viés de recência.
Seleção de modo. Run scripts/mode_select.py classifica o panorama em Verificação / Síntese / Híbrido baseado em razão de concordância.
Stage 2 — deliberar. Síntese sob seis critérios em ordem: Correção → Completude → Consistência → Elegância → Operabilidade → Robustez. Tensões nomeadas explicitamente, resolvidas por critério (critério documentado na saída).
Check crítico. Poderiam TODAS as trajetórias compartilhar um erro? Se sim, re-derivar do zero usando os erros como exemplos negativos.
Saída. Resposta primeiro. Confiança declarada. Meta-análise suprimida exceto sob demanda ou se confiança for Baixa.

Arquitetura

A skill segue a própria mitigação §Protocol-Overload: corpo do SKILL.md ≤300 linhas, detalhes em referências lazy-loaded. Strange-loop fechado.

Requisitos

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts usam apenas a stdlib — sem pip install)
Melhor com modelos de fronteira (Opus 4.7, Sonnet 4.6); usável em Haiku 4.5 com K reduzido
100k+ tokens de contexto recomendados para K=5 com budget de deliberação completo

Compatibilidade

Plataforma	Status
Claude Code	✅ Nativo
Cursor / Codex / Gemini CLI / Copilot	✅ Formato Agent Skills
API Anthropic direta	✅ Use SKILL.md como fragmento de system prompt

Idioma

Licença

Footer

Versão: 3.1.1
Autor: @l0z4n0
Base empírica: Wang et al. (2026), HeavySkill
Qualidade: Validada por skill-architect (25/30) e anthropic-grade-optimizer (100/A em Opus 4.7)

🇪🇸 Español

Base empírica: Wang et al. (2026), HeavySkill. El razonamiento paralelo + deliberación secuencial supera al pase único y a la votación Best-of-N en tareas verificables; la deliberación produce respuestas correctas ausentes en cualquier trayectoria individual en ~50% de los ensayos con modelos de frontera.

Instalación

myclaude install heavy-think

¿Es para mí?

Sí, si tú:

Enfrentas problemas donde un pase único se siente insuficiente (decisiones arquitecturales, matemáticas/código difícil, investigación diagnóstica, análisis multi-stakeholder).
Trabajas con modelos de frontera (Opus 4.7, Sonnet 4.6) donde el coste de deliberación se justifica por el riesgo.
Quieres síntesis guiada por criterios en lugar de "promedio de K opiniones".

No, si tú:

Necesitas respuestas fácticas rápidas — heavy thinking aquí es overhead.
Trabajas principalmente en tareas creativas subjetivas — empíricamente, las ganancias son marginales o negativas (usa modo voice-anchor si es necesario).
Tienes flujos con restricción temporal donde K llamadas paralelas revientan el presupuesto de latencia.

Quick start

Tú: "Arquitecta la capa de datos de un SaaS multi-tenant con aislamiento
     estricto y analytics por tenant. Heavy think esto."

HeavyThink (internamente):
  1. Comprobación de restricciones: K=5 cabe en la ventana de contexto.
  2. Genera 5 trayectorias independientes (lentes Anatomía / Mecanismo /
     Propósito / Contexto / Trayectoria).
  3. Selección de modo: acuerdo = 0.4 → modo SÍNTESIS.
  4. Resuelve tensiones por criterio (Corrección > Completitud >
     Consistencia > Elegancia > Operabilidad > Robustez).
  5. Salida con respuesta primero; meta-análisis solo bajo petición.

Tú ves: recomendación arquitectural clara con nivel de confianza
y una frase sobre qué cambiaría la conclusión — no un recorrido
del proceso deliberativo.

Features

🧠 Intensidad de activación calibrada (Light / Standard / Deep)

⚙️ Deliberación dual-mode (Verificación / Síntesis / Híbrido)

🛡️ Ejecución constraint-aware + detección de cascada

Casos de uso

Escenario	Modo	Lo que recibes
Decisión arquitectural con commit irreversible	Deep · Síntesis	Recomendación + tensiones nombradas resueltas por criterio + confianza Alta/Moderada/Baja + frase única sobre qué cambiaría la conclusión
Matemática/algoritmo difícil con respuesta verificable	Standard · Verificación	Respuesta en \boxed{} + verificación del consenso + disidencia minada
Investigación diagnóstica bajo incertidumbre	Standard · Híbrido	Hipótesis de trabajo + alternativas ranqueadas + edge cases que la mayoría perdió
Decisión estratégica multi-stakeholder	Deep · Síntesis	Respuesta integrada absorbiendo verdades parciales de cada lente + caveat explícito
Revisión creativa donde la voz fuerte importa	Light · Voice-anchor	Salida anclada refinada por críticas estructurales — promedio de comité suprimido

Cómo funciona

comprobación de restricciones → K trayectorias paralelas → prune + shuffle cache →
clasifica modo → delibera bajo criterios jerárquicos →
confianza → respuesta

Requisitos

Claude Code ≥ 1.0.0
Python ≥ 3.8 (scripts usan solo la stdlib — sin pip install)
Mejor con modelos de frontera (Opus 4.7, Sonnet 4.6); usable en Haiku 4.5 con K reducido
100k+ tokens de contexto recomendados para K=5 con presupuesto de deliberación completo

Compatibilidad

Plataforma	Estado
Claude Code	✅ Nativo
Cursor / Codex / Gemini CLI / Copilot	✅ Formato Agent Skills
API Anthropic directa	✅ Use SKILL.md como fragmento de system prompt

Idioma

Idioma fuente: Inglés (dominio de razonamiento técnico). La skill opera en el idioma de la consulta en runtime — la salida iguala la entrada por defecto.

Licencia

Footer

Versión: 3.1.1
Autor: @l0z4n0
Base empírica: Wang et al. (2026), HeavySkill
Calidad: Validada por skill-architect (25/30) y anthropic-grade-optimizer (100/A en Opus 4.7)

Version: 3.1.1 | License: Proprietary | Author: @l0z4n0

<sub>Quality-validated by MyClaude Studio Engine | Browse marketplace</sub>