La definición de estadística ha adoptado muchas formas a lo largo de la historia. Hoy en día, se puede establecer como la ciencia que permite extraer información de los datos, así como la medición, el control, y la comunicación de la incertidumbre. Constituye, por tanto, la herramienta esencial para controlar el curso de los avances científicos y sociales.
La ciencia estadística ha ido aumentando el rango de técnicas, métodos y teorías que aglutinar, pero posiblemente la división más primaria que se puede hacer de la misma es la que distingue los campos de estadística descriptiva y estadística inferencial.
La estadística descriptiva tiene como objetivo resumir la información contenida en los datos de la forma más sencilla y presentable posible, obteniendo así los parámetros que distinguen las características de un conjunto de datos (lo que se conoce como estadísticos). Pertenecen al ámbito de la estadística descriptiva las tablas de frecuencias, a partir de las cuales se obtienen los estadísticos:
Medidas de centralización: la media en todas sus variantes (aritmética, geométrica, ponderada), la moda y la mediana
Medidas de dispersión: la varianza, la desviación típica (raíz cuadrada de la varianza) y el rango
Medidas de tendencia central: los cuantiles y sus desgloses (percentiles, cuartiles, deciles, etc.)
Medidas de forma: los coeficientes de asimetría y curtosis
¿Qué es lo que distingue a la estadística descriptiva de la inferencial?
En primer lugar, la naturaleza de los datos. Mientras que la estadística descriptiva sirve tanto para una población como para una muestra (un subconjunto de esa población cuyos elementos son elegidos al azar), la estadística inferencial trabaja con muestras a partir de las cuales intenta extraer conclusiones sobre la población.
Esta práctica se conoce como inferir, y es importante recalcar la diferencia en la naturaleza de los datos, ya que es un error muy común el de extraer conclusiones de un conjunto cuyas conclusiones… son los mismos datos en sí.
Para explicar dicho error, conviene asimismo explicar la principal diferencia teórica entre estadística descriptiva e inferencial. La descriptiva, al ser únicamente una descripción de los datos, no asume que éstos tengan alguna propiedad más allá de las que se pueden describir con los estadísticos ya mencionados. En cambio, la inferencial asume que los datos se rigen bajo un fenómeno aleatorio subyacente que es el que hace que tomen un valor u otro. Es por esto por lo que los datos pasarían a denominarse variables aleatorias. Al existir incertidumbre, se puede igualmente describir la población de la que sale esa muestra, pero debemos entonces asumir un cierto error derivado de la naturaleza probabilística de los datos.
Un ejemplo práctico: si recogemos una muestra de alturas de 100 españoles, y obtenemos una media de 1,85, podemos asumir que es una variable aleatoria, y que por lo tanto, si la media de la muestra está en 1,85, es muy probable que la media de altura de todos los españoles esté en torno a esa cifra. Por otro lado, si hacemos un censo de las alturas de todos los habitantes de España, no hace falta asumir un riesgo o error para concluir con que la media es equivalente a una cifra concreta: al 100%, la media poblacional es la que obtenemos de ese censo.