Clear Sky Science · pt
O Banco de Dados de ECG Harvard-Emory
Por que uma Biblioteca Gigante de Batimentos Cardíacos Importa
Os pulsos elétricos do coração, capturados em um exame simples chamado eletrocardiograma (ECG), estão entre as medições mais comuns na medicina moderna. Ainda assim, até agora os pesquisadores dispunham de surpreendentemente poucas coleções muito grandes e bem organizadas de ECGs para estudar. O Banco de Dados de ECG Harvard-Emory (HEEDB) muda isso: reúne milhões de registros de ECG coletados no atendimento hospitalar rotineiro, juntamente com informações sobre quem eram os pacientes e o que lhes aconteceu. Essa enorme “biblioteca de batimentos” pode ajudar cientistas a encontrar sinais precoces de problemas cardíacos e a desenvolver ferramentas computacionais mais justas e precisas para os médicos.

Uma Coleção Massiva de Sinais Cardíacos
O HEEDB é atualmente a maior coleção de acesso aberto de ECGs padrão de 12 derivações, o tipo usado em clínicas e salas de emergência no mundo todo. Contém mais de 11,6 milhões de gravações de dez segundos de mais de 2,1 milhões de pacientes atendidos no Massachusetts General Hospital, em Boston, e no Emory University Hospital, em Atlanta, entre 1980 e 2022. Muitas pessoas na base de dados fizeram vários ECGs ao longo de meses ou anos, fornecendo uma linha do tempo de como os padrões cardíacos mudaram com a idade, com adoecimento ou com a recuperação. Ao abrir esse recurso para pesquisadores qualificados, a equipe pretende viabilizar estudos em escala populacional sobre ritmos cardíacos, suas perturbações e como esses padrões se relacionam com desfechos de saúde, como insuficiência cardíaca, arritmias perigosas e morte súbita.
Quem São os Pacientes e Como Seus Dados São Protegidos
O banco de dados não armazena apenas formas de onda; inclui também informações de contexto ricas para cada pessoa. Para a maioria dos pacientes, os pesquisadores podem ver idade, sexo e raça, enquanto um dos hospitais fornece detalhes como nível de escolaridade, idioma e status de veterano. Datas como nascimento, registro do ECG, última visita hospitalar e óbito estão disponíveis em uma forma cuidadosamente alterada: as datas de cada paciente são deslocadas aleatoriamente em até um ano, e qualquer pessoa com mais de 89 anos é agrupada em uma única faixa etária. Identificadores diretos são removidos, e cada pessoa recebe um novo código consistente entre projetos relacionados. Essas medidas seguem regras de privacidade estabelecidas e foram aprovadas por comitês de ética, com acesso aos dados controlado por um acordo de uso que proíbe tentativas de “reidentificar” indivíduos.
Camadas de Significado Médico Sobre Cada Batimento
Cada ECG no HEEDB está vinculado a várias camadas de interpretação. Primeiro, há declarações geradas por computador por meio de softwares comerciais amplamente usados de análise de ECG, que sinalizam tipos de ritmo e possíveis problemas, como infartos prévios ou padrões elétricos anormais. Esses rótulos foram regenerados para todas as gravações usando a versão mais recente do software para que pesquisadores possam comparar pacientes ao longo de décadas de forma consistente. Em segundo lugar, para muitos ECGs o banco de dados também inclui o que os médicos escreveram ao revisar os traçados à beira do leito. Como essas notas foram digitadas como texto livre, a equipe utilizou métodos de processamento de linguagem natural para traduzi-las de volta em códigos padronizados. Em seguida, mediram o grau de concordância entre as interpretações automatizadas e humanas, encontrando em geral forte sobreposição, mas também destacando onde o computador e o médico viram diferenças.
Conectando Padrões Cardíacos a Diagnósticos e Histórico de Doenças
Além do que é visível em cada trecho de ECG, o banco de dados liga cada paciente a códigos de diagnóstico extraídos de seus prontuários eletrônicos. Esses códigos, de sistemas internacionais de longa data (CID‑9 e CID‑10), resumem condições que vão desde hipertensão e diabetes até distúrbios do ritmo cardíaco e doenças pulmonares, juntamente com as datas em que esses diagnósticos foram feitos. Alguns pacientes têm apenas alguns códigos, enquanto outros têm centenas, refletindo históricos médicos complexos. Os códigos mais comuns em ambos os hospitais referem‑se à hipertensão essencial, sublinhando quão prevalente é a pressão alta entre as pessoas que fazem testes de ECG. Importante: os autores destacam que rótulos baseados em ECG e códigos de diagnóstico capturam aspectos diferentes do cuidado e podem referir‑se a visitas distintas, de modo que os pesquisadores devem decidir com cuidado como combiná‑los.

Forças, Limitações e Como Pesquisadores Podem Usá‑lo
Como os ECGs foram coletados durante o atendimento clínico ordinário usando a mesma marca de equipamento, os dados são consistentes, mas também contêm imperfeições do mundo real, como ruído e derivações ausentes. Os autores fornecem sinalizadores básicos de qualidade e notas técnicas, mas deliberadamente deixam limpeza e seleção adicionais para os usuários finais, que podem ter objetivos de pesquisa diferentes. Eles também alertam que todas as gravações vêm de dois grandes centros acadêmicos dos EUA usando o sistema de um único fornecedor, de modo que os achados podem não se generalizar totalmente para outras regiões ou dispositivos. Mesmo assim, o tamanho do conjunto de dados, a diversidade dos pacientes e a disponibilidade de interpretações automatizadas e médicas tornam o HEEDB um campo de prova poderoso para novos algoritmos e para o estudo de vieses entre grupos demográficos.
O Que Isso Significa para o Cuidado Cardíaco Futuro
Em essência, o Banco de Dados de ECG Harvard‑Emory transforma milhões de exames cardíacos de rotina em um recurso científico compartilhado. Para um não especialista, seu valor reside na possibilidade de que padrões ocultos nessas gravações revelem quem está em risco de problemas cardíacos graves muito antes do aparecimento de sintomas, e se as ferramentas atuais funcionam igualmente bem para pessoas de diferentes idades, sexos e origens. Ao tornar dados cuidadosamente desidentificados amplamente disponíveis, o projeto estabelece a base para uma cardiologia mais precisa, orientada por dados, e para ferramentas de apoio à decisão assistidas por computador que sejam ao mesmo tempo potentes e justas.
Citação: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9
Palavras-chave: eletrocardiograma, doença cardiovascular, conjuntos de dados médicos, aprendizado de máquina na medicina, ritmo cardíaco