Programación II · FIB-UPC

Clustering Filogenético WPGMA

Construye árboles filogenéticos paso a paso. Añade especies con secuencias de genes, mira la matriz de distancias k-mer, luego observa cómo el algoritmo WPGMA fusiona los clústeres más cercanos en un dendrograma.

Ver código en GitHub

Cómo funciona

1. Añadir especies — cada especie tiene un ID (nombre corto) y una secuencia de genes formada por nucleótidos (A, C, G, T).

2. Tabla de distancias — las distancias entre especies se calculan usando análisis k-mer: el gen se divide en subsecuencias superpuestas de longitud k, y las especies se comparan según cuántos k-mers comparten.

3. Clustering WPGMA — el algoritmo fusiona repetidamente los dos clústeres más cercanos, promediando sus distancias a los demás clústeres. Haz clic en Siguiente paso para verlo, o en Ejecutar todo para saltar al árbol final.

4. Dendrograma — el árbol filogenético resultante muestra cómo se relacionan las especies. Ramas más cercanas = genes más similares.

Especies

5 especies cargadas

ID	Secuencia de genes
A	AACTGCATGC
B	AACTGCTTGC
C	GGTACCATGC
D	CATGCAACTG
E	TTGCAACTGC

Añadir nueva especie — ID es un nombre corto, Gen es una secuencia de nucleótidos A, C, G, T

Tabla de Distancias

	A	B	C	D	E
A	—	54.55	76.92	22.22	40.00
B	54.55	—	93.33	66.67	40.00
C	76.92	93.33	—	76.92	93.33
D	22.22	66.67	76.92	—	40.00
E	40.00	40.00	93.33	40.00	—

Clustering WPGMA

Sobre este proyecto

Originalmente un proyecto de C++17 para el curso de PRO2 en la FIB-UPC. El algoritmo calcula las distancias entre pares de especies utilizando análisis de frecuencia k-mer, luego fusiona iterativamente el par más cercano utilizando el Método del Grupo de Pares Ponderados con Media Aritmética (WPGMA) para construir un árbol filogenético.