Capítulo 16 Conceptos teóricos

Definition 16.1 \(C_1, C_2, \dots,C_k\) es una partición de \(C\) de tamaño \(k\) si \(\cup_{i=1}^k C_i = C\), y \(C_i \cap C_j = \emptyset\) si \(i \neq j\). Una clusterización de \(X\) es una partición de \(X\).
Definition 16.2 Una medida de disimilaridad en un conjunto finito \(X\) es una función \(d: X\times X \rightarrow \mathbb{R}\) simétrica.

En particular una métrica es medida de disimilaridad pero una medida de disimilaridad no es necesariamente una métrica.

16.1 Medidas de disimilaridad

16.1.1 Datos numéricos

Si \(X \subset \mathbb{R}^p\) es un conjunto de \(N\) datos, entonces tenemos las siguientes medidas de disimilaridad:

  • \(d_{euc}: X\times X \rightarrow \mathbb{R}^+\cup\{0\}\); \(d_e(x_i,x_j)=||x_i-xj||\)

  • \(d_{abs}: X\times X \rightarrow \mathbb{R}^+\cup\{0\}\); \(d_a(x_i,x_j)=\sum_{l=1}^p|x_{il}-x_{jl}|\)

  • \(d_{cor}: X\times X \rightarrow \mathbb{R}\); \(d_c(x_i,x_j)=\rho(x_i,x_j)\)

16.1.2 Datos ordinales

Si \(X=\{x_1,\dots,x_N\}\) representa un conjunto de \(N\) datos univariados ordinales, podemos definir la métrica de valor absoluto en \(X\) guiándonos por el ordenamiento de los datos, entonces podemos definir \(f:\ Rango(X)\rightarrow \mathbb{N}\) de tal manera que \(f\) preserve el orden y definir \[d(x_i,x_j) = |f(x_i)-f(x_j)|\]

16.1.3 Datos categóricos

Si \(X\) representa un conjunto de datos categóricos podemos definir como medida de disimilaridad a la delta de Kronocker

\[d(x_i,x_j) = \left\{\begin{matrix} 0 & x_i=x_j\\ 1 & e.o.c. \end{matrix}\right.\]

Cuando \(X_{N\times p}\) representa un conjunto de datos arbitrario podemos definir

\[d(x_i,x_j) = \sum_{l=1}^p\alpha_l d_l(x_{il},x_{jl})\] donde \(0\leq \alpha_l\) y \(sum_{l=1}^p\alpha_l=1\), es decir, \(d\) es una combinación lineal convexa de las \(d_l\)