Uma compreensão teórica da cadeia de pensamento: raciocínio coerente e demonstração consciente de erros
O artigo “A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration” explora o funcionamento do Chain-of-Thought (CoT) em modelos de linguagem para aprimorar a capacidade de raciocínio. Tradicionalmente, o CoT envolve uma série de passos de aprendizado em contexto que processam raciocínios de maneira isolada (Stepwise ICL). No entanto, o estudo propõe uma abordagem chamada Coherent CoT, que integra os passos anteriores ao longo do raciocínio, permitindo que o modelo corrija erros de forma mais eficiente.
A pesquisa também analisa a sensibilidade do Coherent CoT a erros intermediários, constatando que esses erros têm mais impacto nos resultados finais do que erros na etapa final de resposta. Com base nisso, os autores propõem um método que inclui tanto caminhos corretos quanto incorretos de raciocínio nas demonstrações de exemplo, para ensinar o modelo a lidar melhor com erros potenciais. Experimentos demonstram que essa abordagem melhora a precisão dos modelos em tarefas de raciocínio.
Caminhos corretos
Os caminhos corretos no Coherent CoT são estruturados de forma que o modelo processe os passos de raciocínio integrando as informações iniciais (xis) e as respostas intermediárias (zis) para alcançar uma previsão final precisa (yq). Esse método considera o impacto dos passos anteriores de raciocínio, permitindo correção de erros ao longo do processo. Além disso, foi introduzido um método que inclui tanto demonstrações corretas quanto incorretas, onde cada exemplo de raciocínio incorreto é seguido de uma explicação do erro, ajudando o modelo a distinguir e evitar esses erros em futuras inferênciasbordagem permite que o modelo ajuste previsões com base em possíveis erros intermediários, o que leva a um desempenho aprimorado, como mostrado em experimentos que validaram a eficácia dessa combinação de caminhos corretos e incorretos nas demonstrações .
Métodos propostos
O método proposto no artigo para aprimorar o Chain-of-Thought (CoT) em modelos de linguagem usa uma abordagem chamada Coherent CoT e uma técnica inovadora de demonstração que integra tanto caminhos corretos quanto incorretos de raciocínio. Vou detalhar as partes principais:
1. Coherent CoT: Raciocínio Integrado e Coerente
No Coherent CoT, o raciocínio não é feito isoladamente a cada passo, mas sim integrando as informações dos passos anteriores. Isso permite que o modelo:
- Reavalie e ajuste seu raciocínio ao longo do processo, levando em conta possíveis erros em passos intermediários.
- Corrija-se automaticamente, pois considera as inconsistências anteriores antes de gerar a resposta final.
Esse método se diferencia do Stepwise ICL, onde cada passo é processado isoladamente, o que limita a capacidade de autocorreção.
2. Demonstrações com Caminhos Corretos e Incorretos
Para reforçar a habilidade do modelo de identificar e corrigir erros, o método inclui nos exemplos tanto raciocínios corretos quanto caminhos incorretos acompanhados de uma explicação detalhada sobre o porquê de estarem errados. Esse processo de demonstração ocorre da seguinte forma:
- Passo 1: Apresenta-se um exemplo incorreto com um raciocínio falho. Após esse raciocínio, uma explicação esclarece o erro, ajudando o modelo a identificar onde a lógica falhou.
- Passo 2: Em seguida, mostra-se o caminho correto para resolver o problema, permitindo ao modelo comparar ambos os caminhos (correto e incorreto).
3. Vantagens do Método
- Identificação de Erros: Ao aprender com raciocínios incorretos e suas explicações, o modelo ganha uma compreensão mais profunda dos erros comuns, permitindo que evite ou ajuste caminhos similares em novas tarefas.
- Aprendizado Robusto: Essa exposição a erros e correções melhora a estabilidade do modelo em tarefas complexas, pois ele se torna mais “consciente” dos tipos de erros que podem ocorrer ao longo do processo de raciocínio.
- Desempenho Aprimorado: Experimentos com essa abordagem mostram melhorias significativas na precisão do modelo em várias tarefas de raciocínio, especialmente nas que exigem vários passos sequenciais.
Essencialmente, o método ensina o modelo a raciocinar de forma mais confiável, reconhecendo e corrigindo falhas potenciais antes de produzir a resposta final. Isso resulta em um modelo mais robusto e preciso para resolver problemas complexos.
Exemplos
Imagine uma tarefa onde o modelo precisa raciocinar para resolver problemas de data e operações matemáticas simples.
Exemplo 1: Entendimento de Datas
Pergunta: “Qual é o dia da semana 90 dias após 1º de janeiro?”
1. Caminho Incorreto
- Passo 1: “Começamos no dia 1º de janeiro, então 90 dias depois deve ser em março.”
- Passo 2: “Como fevereiro tem 28 dias, somo 28 dias a janeiro e continuo até 90, chegando ao dia 1º de abril.”
Explicação do Erro: Aqui, o raciocínio ignorou o cálculo preciso das semanas, então o resultado não é uma resposta exata do dia da semana.
2. Caminho Correto
- Passo 1: “Começamos no dia 1º de janeiro e contamos 90 dias, incluindo os dias exatos de cada mês.”
- Passo 2: “90 dias após 1º de janeiro cai no dia 31 de março, que é uma segunda-feira.”
Neste exemplo, o modelo aprende não só o caminho correto, mas também entende onde erros comuns podem ocorrer ao ignorar cálculos semanais ou detalhes específicos de datas.
Exemplo 2: Problema Aritmético com Sequência de Raciocínio
Pergunta: “Se João tem 15 maçãs e dá 3 para cada um de seus 4 amigos, quantas maçãs ele terá ao final?”
1. Caminho Incorreto
- Passo 1: “Se ele dá 3 maçãs para 4 amigos, então dá um total de 12 maçãs.”
- Passo 2: “Como ele começou com 15, ele teria 3 maçãs sobrando.”
Explicação do Erro: O erro aqui pode ser causado por uma má interpretação da distribuição, onde ele pode ter assumido que João dá 3 maçãs para um total de amigos sem considerar que cada um dos amigos recebe 3 maçãs.
2. Caminho Correto
- Passo 1: “Se João dá 3 maçãs para cada um dos 4 amigos, isso resulta em 3 x 4 = 12 maçãs dadas ao todo.”
- Passo 2: “João tinha 15 maçãs, então, depois de dar 12, ele tem 15–12 = 3 maçãs restantes.”
Esse exemplo ajuda o modelo a entender a importância de dividir a análise de quantidades corretamente entre os passos, observando que o cálculo inicial afeta diretamente o resultado final.
Exemplo 3: Problema de Raciocínio Lógico
Pergunta: “Se A é maior que B e B é maior que C, é correto afirmar que A é maior que C?”
1. Caminho Incorreto
- Passo 1: “Como A é maior que B, e B é maior que C, A só pode ser igual a C.”
Explicação do Erro: Esse raciocínio ignora a transitividade das desigualdades (ou seja, se A > B e B > C, então A > C).
2. Caminho Correto
- Passo 1: “A é maior que B, e B é maior que C, o que significa que A também é maior que C pela propriedade transitiva das desigualdades.”
Exemplo 4: Diagnóstico Médico Baseado em Sintomas
Pergunta: “Dado um paciente com febre alta, dor de garganta, dor de cabeça e erupções na pele, quais são os diagnósticos possíveis e qual é o mais provável?”
Caminho Incorreto
- Passo 1: “Febre alta e dor de garganta são sintomas comuns de gripe.”
- Passo 2: “A dor de cabeça é outro sintoma comum da gripe.”
- Passo 3: “As erupções podem ser um sintoma raro, mas ainda possível, de uma infecção viral geral.”
Explicação do Erro: Esse raciocínio considera sintomas individualmente e não integra todos os sinais apresentados. A presença de erupções e febre sugere condições diferentes, como sarampo, o que é ignorado aqui.
Caminho Correto
- Passo 1: “Febre alta, dor de garganta e dor de cabeça são sintomas comuns em várias infecções virais, incluindo gripe, mononucleose e sarampo.”
- Passo 2: “As erupções cutâneas são um sinal distintivo que afasta o diagnóstico de gripe e sugere doenças como sarampo ou rubéola.”
- Passo 3: “Como o paciente tem febre alta e erupções cutâneas, o diagnóstico mais provável é sarampo. Confirmar com um exame laboratorial seria ideal.”
Explicação: O Coherent CoT ajuda o modelo a reavaliar e ajustar o diagnóstico ao longo das etapas, considerando sintomas de maneira integrada. Ele permite que o modelo descarte hipóteses como gripe e foque em diagnósticos que explicam todos os sintomas apresentados.
Exemplo 5: Análise Jurídica de um Caso Complexo
Pergunta: “Em um caso de contrato com uma cláusula ambígua sobre a responsabilidade em situações de força maior, como o juiz pode interpretar essa cláusula?”
Caminho Incorreto
- Passo 1: “Em geral, cláusulas de força maior exoneram as partes de responsabilidades imprevistas.”
- Passo 2: “Como a cláusula é ambígua, presume-se que a responsabilidade seja limitada, mas isso depende da redação.”
- Passo 3: “A decisão provavelmente será que ambas as partes não são responsáveis, já que a cláusula é ambígua.”
Explicação do Erro: O raciocínio ignora o contexto e os princípios jurídicos de interpretação contratual, que poderiam indicar uma solução mais justa ao avaliar a intenção das partes.
Caminho Correto
- Passo 1: “Primeiro, considere que cláusulas de força maior geralmente têm como objetivo proteger as partes de eventos além do controle humano.”
- Passo 2: “Como a cláusula é ambígua, é importante considerar o contexto do contrato e a intenção das partes ao redigi-la.”
- Passo 3: “Um princípio de interpretação pode ser aplicado aqui: interpretar a cláusula de maneira que promova o equilíbrio contratual, atribuindo responsabilidade apenas se claramente justificado.”
- Passo 4: “Conclui-se que o juiz pode interpretar a cláusula para proteger ambas as partes de maneira equilibrada, salvo se houver indícios claros de intenção contrária.”
Explicação: O Coherent CoT guia o modelo para reavaliar a cada passo, levando em conta as normas jurídicas de interpretação e aplicando-as para construir uma análise mais equilibrada e fundamentada.
Exemplo 6: Planejamento de Campanha de Marketing com Restrições Complexas
Pergunta: “Planeje uma campanha de marketing para um novo produto que respeite as restrições de orçamento, o calendário promocional e a sensibilidade ambiental.”
Caminho Incorreto
- Passo 1: “O primeiro passo é promover em redes sociais, pois é uma opção de baixo custo.”
- Passo 2: “Depois, fazemos uma promoção com amostras grátis, pois atrai o público e tem boa conversão.”
- Passo 3: “A campanha ambiental pode ser incluída como parte do discurso de vendas para aumentar o impacto.”
Explicação do Erro: Este plano negligencia uma avaliação integrada do orçamento e da sequência das ações, o que pode ultrapassar o limite financeiro ou comprometer o calendário.
Caminho Correto
- Passo 1: “Analise o orçamento total e distribua-o entre redes sociais, eventos presenciais e mídia impressa com base no impacto e custo de cada canal.”
- Passo 2: “Inicie uma campanha nas redes sociais com materiais sustentáveis e mensagens de baixo impacto ambiental.”
- Passo 3: “Faça parcerias com influenciadores focados em sustentabilidade, maximizando o alcance com baixo custo e alinhamento ambiental.”
- Passo 4: “Distribua amostras grátis apenas em eventos locais, reduzindo o custo e evitando emissões excessivas de transporte.”
Explicação: O Coherent CoT permite que o modelo integre as restrições de orçamento e sustentabilidade a cada passo, ajustando o planejamento para que cada ação reflita os valores e o orçamento estabelecido.
Exemplo 7: Raciocínio Financeiro e Análise de Investimentos
Pergunta: “Dada a situação financeira de uma empresa com altos lucros e baixa liquidez, quais são as melhores estratégias de investimento e gestão de caixa?”
Caminho Incorreto
- Passo 1: “Recomenda-se investir parte dos lucros em expansão, pois há alta rentabilidade.”
- Passo 2: “Uma linha de crédito pode resolver a falta de liquidez temporária.”
- Passo 3: “Investir o restante em ações pode maximizar o retorno.”
Explicação do Erro: A recomendação ignora o problema de liquidez a longo prazo e propõe investimentos arriscados sem considerar o impacto no fluxo de caixa.
Caminho Correto
- Passo 1: “Priorize a melhoria da liquidez, alocando parte dos lucros para um fundo de emergência que cubra despesas operacionais.”
- Passo 2: “Considere um investimento de baixo risco e alta liquidez, como títulos do governo, para assegurar o fluxo de caixa.”
- Passo 3: “Após estabilizar a liquidez, destine parte dos lucros para expansão com análise de viabilidade financeira.”
- Passo 4: “Evite investimentos de alta volatilidade até que o fluxo de caixa da empresa se estabilize.”
Explicação: O Coherent CoT permite que o modelo mantenha uma perspectiva integrada entre os lucros, a liquidez e o risco em cada passo, orientando uma estratégia mais equilibrada e segura.
Aqui, o modelo compreende melhor as regras lógicas e evita erros de interpretação da lógica.
Principais resultados do artigo
1. Sensibilidade a Erros nos Passos Intermediários
O estudo revela que o modelo treinado com Coherent CoT é mais sensível a erros nos passos intermediários de raciocínio do que a erros no resultado final. Essa sensibilidade implica que, ao treinar o modelo para dar atenção especial a erros em etapas intermediárias, é possível melhorar significativamente a precisão final. Essa descoberta destaca a importância de um processo de raciocínio rigoroso em cada etapa, em vez de apenas focar no resultado.
2. Capacidade de Autocorreção
Com o Coherent CoT, o modelo pode se autocorrigir ao longo do raciocínio, ajustando as previsões com base em erros ou inconsistências percebidas nas etapas anteriores. Isso é essencial em tarefas de múltiplos passos, onde um pequeno erro em uma etapa pode se amplificar e prejudicar o resultado final. O artigo mostra que a abordagem de Coherent CoT leva o modelo a uma forma de raciocínio iterativo, onde ele ajusta cada novo passo com base nos passos anteriores.
3. Aplicação de Raciocínio com Caminhos Diversificados
O método de adicionar caminhos incorretos não só ajuda o modelo a evitar erros, mas também o torna mais resiliente a diferentes tipos de lógica. Em vez de seguir apenas uma sequência rígida, o modelo aprende a lidar com abordagens variadas e até com possíveis erros humanos. Esse aprendizado aumenta a flexibilidade e a adaptabilidade do modelo em cenários diversos e até imprevistos.
4. Comparação entre Stepwise ICL e Coherent CoT
O artigo também oferece uma análise teórica que demonstra por que o Coherent CoT supera o Stepwise ICL em termos de precisão. A abordagem Coherent CoT, ao integrar as informações de cada etapa anterior no raciocínio, gera previsões mais acuradas e coerentes. Essa análise é suportada por experimentos que mostram que o Coherent CoT converge para um erro menor em comparação ao Stepwise ICL.
5. Experimentação e Validação com Diferentes Modelos e Tarefas
O artigo valida o método proposto com diferentes grandes modelos de linguagem (LLMs), como GPT-3.5, GPT-4, e outros, em diversos benchmarks. Os resultados mostram que o uso de caminhos incorretos e explicações aumentam a precisão em mais de 5% em alguns casos. Esse aumento é notável, considerando que a maioria dos modelos de última geração já apresenta alto desempenho.
Essas descobertas indicam que o modelo pode aprender um raciocínio mais sofisticado e autocorretivo, aproximando-se do que seria um processo de pensamento humano.
Exemplos de como isso funciona na prática:
Exemplo 1: Análise Financeira de Investimentos e Liquidez com Caminhos Corretos e Incorretos
Prompt Completo:
“Você é um consultor financeiro que deve ajudar uma empresa a equilibrar sua lucratividade e baixa liquidez. Siga os passos abaixo para desenvolver uma análise sólida. Para cada passo, veja exemplos de raciocínios corretos e incorretos para orientar suas recomendações. Reavalie o plano em cada etapa, considerando os exemplos fornecidos.
- Avaliação de Liquidez
- Exemplo Incorreto: ‘A empresa deve reinvestir imediatamente os lucros, pois a alta lucratividade sugere que há fundos suficientes para novas oportunidades de crescimento.’
- Explicação do Erro: Esse raciocínio ignora que alta lucratividade não significa necessariamente alta liquidez. Sem uma reserva de caixa adequada, a empresa pode enfrentar dificuldades para cobrir despesas de curto prazo.
- Exemplo Correto: ‘Antes de qualquer expansão, a empresa deve alocar uma parte dos lucros para aumentar sua liquidez, criando um fundo de reserva que cubra emergências ou períodos de baixa receita.’
2. Estratégia de Curto Prazo para Melhorar a Liquidez
- Exemplo Incorreto: ‘Use todo o fundo de reserva para investimentos de alto retorno, o que aumentará a liquidez a longo prazo.’
- Explicação do Erro: Investir em ativos de alto retorno pode significar menor liquidez, pois muitos desses investimentos são de longo prazo e não podem ser facilmente convertidos em caixa.
- Exemplo Correto: ‘Invista o fundo de reserva em ativos de curto prazo e alta liquidez, como títulos do governo ou aplicações de alta liquidez, para que a empresa mantenha fácil acesso ao capital.’
3. Expansão Controlada
- Exemplo Incorreto: ‘Invista em expansão total imediatamente, pois a empresa é lucrativa e os custos podem ser cobertos pelo lucro projetado.’
- Explicação do Erro: A expansão imediata pode drenar os recursos da empresa, comprometendo a liquidez e colocando em risco sua capacidade de cobrir despesas imprevistas.
- Exemplo Correto: ‘Avalie se uma expansão parcial é viável dentro do limite de liquidez. Somente após consolidar o fundo de reserva e garantir a liquidez mínima, considere expandir gradualmente para evitar riscos financeiros.
4. Plano Final
- Revisão Final: ‘Revise o plano para confirmar que todas as etapas garantem a liquidez e mantêm o equilíbrio entre crescimento e segurança financeira. Ajuste qualquer estratégia que possa comprometer o caixa da empresa em caso de necessidade de emergência.’
Agora, aplique o raciocínio apresentado nos exemplos para desenvolver uma análise financeira que mantenha o equilíbrio entre lucro e liquidez.”
Exemplo 2: Interpretação Jurídica de Cláusulas Contratuais Ambíguas com Caminhos Corretos e Incorretos
Prompt Completo:
“Imagine que você é um advogado revisando um contrato que possui uma cláusula ambígua sobre responsabilidade em situações de força maior. Siga os passos para interpretar a cláusula de forma justa e completa. Abaixo estão exemplos de raciocínios corretos e incorretos para ajudá-lo a estruturar sua resposta.
- Entendimento Geral da Cláusula
- Exemplo Incorreto: ‘Como a cláusula é ambígua, nenhuma das partes deve ser responsabilizada automaticamente em caso de força maior.’
- Explicação do Erro: A interpretação de cláusulas ambíguas deve considerar o contexto contratual e as intenções das partes, e não apenas assumir isenção automática.
- Exemplo Correto: ‘Avaliar a cláusula sob a ótica do equilíbrio contratual é essencial. A cláusula provavelmente foi criada para proteger as partes em eventos extremos, mas ainda exige análise da intenção e do contexto do contrato.’
2. Análise do Contexto e Intenção das Partes
- Exemplo Incorreto: ‘Assumir que uma das partes está automaticamente protegida por força maior sem considerar o que o contrato diz em outros termos.’
- Explicação do Erro: A interpretação que favorece unilateralmente uma parte ignora o princípio da equidade, essencial na interpretação de contratos.
- Exemplo Correto: ‘Verificar se o contrato possui outras cláusulas de contexto sobre responsabilidade em eventos extremos é crucial. Identifique se há uma intenção clara de proteção mútua e adapte a interpretação com base nessa análise.’
3. Aplicação de Jurisprudência
- Exemplo Incorreto: ‘Presumir que decisões anteriores sempre isentam as partes de responsabilidade em casos de força maior.’
- Explicação do Erro: A jurisprudência deve ser aplicada com consideração ao contexto específico do contrato atual, e não como regra geral.
- Exemplo Correto: ‘Consulte casos semelhantes e observe como as decisões judiciais têm abordado situações de ambiguidade em cláusulas de força maior. Ajuste a interpretação conforme necessário para refletir um tratamento justo e balanceado.’
4. Proposta de Interpretação Final
- Revisão Final: ‘Após analisar o contexto e a intenção das partes, proponha uma interpretação que assegure o equilíbrio de responsabilidades, evitando presunções de isenção. Revise cada etapa para garantir que o parecer final seja justo e reflita as intenções contratuais.’
Agora, utilize as diretrizes e exemplos apresentados para interpretar a cláusula de forma justa e balanceada.”
Exemplo 3: Planejamento de Marketing Sustentável com Caminhos Corretos e Incorretos
Prompt Completo:
“Você é um especialista em marketing encarregado de criar uma campanha sustentável para o lançamento de um novo produto ecológico. Siga os passos para desenvolver um plano que maximize o alcance enquanto minimiza o impacto ambiental. Use os exemplos de caminhos corretos e incorretos abaixo para ajustar suas respostas.
- Definição de Objetivos de Sustentabilidade
- Exemplo Incorreto: ‘Enviar amostras do produto para influenciadores em diversas regiões do país para obter alcance máximo.’
- Explicação do Erro: Essa abordagem contradiz o valor de sustentabilidade, pois aumenta a pegada de carbono com o transporte desnecessário.
- Exemplo Correto: ‘Focar em parcerias locais com influenciadores que já apoiam causas ambientais e que possam ajudar a promover o produto de forma sustentável e regional.’
2. Escolha de Canais de Divulgação
- Exemplo Incorreto: ‘Investir em uma campanha publicitária global, usando materiais impressos em massa.’
- Explicação do Erro: A produção em massa de materiais impressos não é sustentável e contradiz a proposta ecológica do produto.
- Exemplo Correto: ‘Priorizar canais digitais e redes sociais, que têm menor impacto ambiental. Usar conteúdos que destaquem os benefícios sustentáveis do produto.’
3. Planejamento de Eventos
- Exemplo Incorreto: ‘Organizar grandes eventos presenciais em várias cidades, independentemente dos custos e do impacto.’
- Explicação do Erro: Grandes eventos aumentam as emissões de carbono e podem ser incompatíveis com o valor sustentável.
- Exemplo Correto: ‘Organizar eventos locais de menor escala ou promover o lançamento em parceria com eventos de sustentabilidade já planejados, reduzindo o impacto e fortalecendo a imagem ecológica.’
4. Revisão do Plano Final
- Revisão Final: ‘Revise cada etapa para garantir que o planejamento atenda aos objetivos de sustentabilidade. Ajuste qualquer etapa que possa estar em desacordo com os valores ecológicos do produto.’
Agora, crie um plano de marketing que seja sustentável e atenda aos objetivos de alcance, usando os exemplos para evitar erros comuns.”