Cambiar a contenido.

OCW UNED

Secciones
Herramientas personales
Acciones de documento
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z



A
Acumulada
(Frecuencia, proporción o porcentaje) En toda distribución de frecuencia se puede obtener la frecuencia acumulada (o proporción acumulada o porcentaje acumulado). Para obtener los valores, simplemente hay que ir acumulando (sumando), desde la categoría de menor valor de la variable a la de mayor valor, las frecuencias absolutas (ver frecuencia absoluta), proporciones o porcentajes, de cada categoría de respuesta. Por ejemplo, la frecuencia absoluta acumulada del grado "moderado" de preocupación por la situación política es 108, resultado de sumar las frecuencias de los grados anteriores (18 + 42 = 60) y la suya propia (60 + 48 = 108), indicando que 108 personas presentan una preocupación moderada o menos por las cuestiones políticas. Con el mismo procedimiento se obtendrían las proporciones y porcentajes acumulados.
 
Frecuencia absoluta
Amplitud del intervalo
Es la diferencia entre el límite exacto superior y el límite exacto inferior, o entre el límite aparente superior y el límite aparente inferior más la unidad de medida.
Amplitud intercuartil
Es la diferencia entre el tercer cuartil (o percentil 75) y el primer cuartil (o percentil 25) y representa el rango de valores que contiene a la mitad central de los datos (el 50%)
Amplitud semi-intercuartil
Es la mitad de la diferencia entre el tercer cuartil (o percentil 75) y el primer cuartil (o percentil 25) y se utiliza para cuantificar la variabilidad de un conjunto de datos medidos con escala ordinal o de una distribución de una variable cuantitativa marcadamente asimétrica.
Análisis de datos
El Análisis de datos en Psicología es una herramienta metodológica necesaria, de carácter fundamentalmente estadístico, para la investigación en Psicología.
Análisis exploratorio de datos (AED)
Es tanto una técnica de análisis de datos como una manera de pensar que enseña a la persona que investiga tendencias en los datos que no esperaba encontrar. Entre las técnicas de AED destacan las técnicas gráficas (diagrama de tallo y hojas) que permiten una rápida inspección de las propiedades de la distribución de los datos posición central, variabilidad y forma. También dispone de índices estadísticos resistentes a los datos extremos de la distribución, por lo que se les suele denominar también estadísticos robustos.
Asimetría
Una distribución asimétrica es una distribución no simétrica por lo que los datos se distribuyen de forma desigual en los extremos de la distribución. Cuando hay muchos datos con valores bajos y pocos datos con valores altos la distribución es asimétrica positiva. Por ejemplo, el número de horas de sueño diario de 0 a 40 años. Por el contrario, cuando hay pocos datos con valores bajos y muchos datos con valores altos, la distribución es asimétrica negativa. Por ejemplo, edad de fallecimiento en los países desarrollados. Para su cálculo se dispone de varios índices. Si el coeficiente de asimetría es As<0, la distribución es asimétrica negativa. Si As=0 la distribución es simétrica y si As>0 la distribución es simétrica positiva .
Sesgo

subir

C
Caja y bigotes
La caja representa el 50% de las observaciones centrales, es decir, las observaciones comprendidas entre el percentil 25 (o primer cuartil) y el percentil 75 (o tercer cuartil). La línea en el centro de la caja representa la mediana o percentil 50. Los bigotes son líneas que se extienden fuera de la caja hasta una distancia de 1,5 veces la longitud de la caja de tal forma que los datos que quedan fuera de estos bigotes corresponden a las observaciones atípicas, llamadas también "outliers"
 
Cajabigotes
Característica
Una característica es una propiedad de los individuos de una población. Uno de los objetivos de la investigación psicológica es determinar las propiedades de una determinada población, propiedades que estarán presentes en todos y cada uno de los individuos que la conforman. Sin embargo, aunque todos los elementos tengan esa propiedad no todos la tienen en el mismo grado. Por ejemplo, una propiedad de los mamíferos es el sexo, que presenta dos alternativas macho y hembra; una propiedad de los seres humanos es el estado civil, con sus diferentes alternativas soltero, casado, separado, viudo, etc.; otra puede ser las creencias religiosas cristianos, mahometanos, budistas... agnósticos o ateos. En estos ejemplos se ve que las propiedades de los individuos de una población pueden adoptar diversas variedades. En términos estadísticos, a la propiedad de los individuos de una población se le denomina característica, mientras que a las diferentes variedades de esa característica se le denomina modalidad.
Causalidad
El coeficiente de correlación no permite por tanto una interpretación en términos de causa-efecto. Si se obtiene un valor alto y positivo, indica que cuando una de las variables aumenta su valor en la escala, la otra, en promedio, también lo hace, mientras que cuando el valor es bajo y negativo indica justamente lo contrario, es decir, que cuando una de las variables aumenta de valor, la otra, en promedio, disminuye. Por último, los valores próximos a cero indican ausencia de relación, o lo que es lo mismo que cuando una de las variables va aumentando de valor, la otra, en promedio, a veces aumenta y a veces disminuye. En ningún caso se debe caer en el error de pensar que una variable es “causa” de la otra. A partir de una simple estudio correlacional, es imprudente establecer ese nexo de causalidad sin acudir a un enfoque experimental que pudiera determinar sin en verdad existe dicho nexo de causalidad o no. Incluso en estudios de variables en que se pueda llegar a pensar que una es causa de la otra, como, por ejemplo, la relación que pueda darse en los alumnos de secundaria entre la ansiedad ante una prueba de conocimientos de estadística y el rendimiento en dicha prueba. Se podría pensar que un alto grado de ansiedad determina el mal rendimiento en la prueba, y que un bajo nivel determina un alto rendimiento. ¿Quiere esto decir que la ansiedad es la causa del rendimiento en esa prueba? Pero también podría ser que la prueba de conocimientos de estadística provoca una reacción de ansiedad, de tal modo que los alumnos poco preparados reaccionan con un aumento de la ansiedad mientras que los mejores preparados se manejan con cierta tranquilidad en dicha prueba.
Coeficiente chi-cuadrado
Es un índice para determinar, a partir de los datos recogidos en una muestra, si dos variables cualitativas están relacionadas. De este índice se derivan el coeficiente de contigencia y el coeficiente fi.
Coeficiente de contingencia
Es un índice de la relación entre dos variables cualitativas y que, al igual que el coeficiente fi, deriva de Chi cuadrado. Su expresión es la siguiente Teóricamente toma valores comprendidos entre 0 y 1, aunque no siempre alcanza el valor 1, incluso cuando las variables están completamente asociadas. En tablas cuadradas, cuando ambas variables tienen el mismo número de categorías (es decir, I = J), su máximo valor es
Coeficiente de contingencia.
Índice estadístico descriptivo que cuantifica la intensidad de la relación entre dos variables cualitativas.
Coeficiente de correlación
Es un índice numérico que representa la intensidad con que dos variables se relacionan. Si dos variables son independientes, es decir, si no existe relación entre ellas, el coeficiente de correlación es cero. Dosvariables, X e Y, están relacionadas cuando cambios en una variable producecambios en la otra variable. Si se observa que cuando aumentan los valores en una variable también aumentan –o disminuyen-, en promedio, los valores en la otra, se puede sospechar que hay correlación entre ellas. Para cuantificar la intensidad de la relación entre dos variables se dispone de distintos índices de correlación dependiendo de la naturaleza de las variables. El siguiente cuadro es un resumen de los índices que se estudiarán

 

Variable

Variable

Coeficiente

Cualitativa

Cualitativa

Correlación Fi

chi-cuadrado

Coeficiente de contingencia

Cualitativa dicotómica

Cuantitativa

Correlación Biserial-puntual

Cuantitativa

Cuantitativa

Correlación de Pearson

Ordinal

Ordinal

Correlación de Spearman.

Coeficiente de correlación de Pearson
Un inconveniente de la covarianza, como medida de variación conjunta o relación entre dos variables es que depende de las unidades de medida en que se expresen las variables de interés y que no tiene un valor máximo y mínimo, lo que dificulta enormemente su interpretación. Por ello, se acude al coeficiente de correlación de Pearson que es la covarianza entre dos variables, X e Y,calculada a partir de sus puntuaciones típicas.Es decir rxy = cov(zx,zy)

 

Se representa con la letra r y el subíndice xy, (rxy), para representar la relación lineal entre dos variables X e Y. Indica la relación lineal entre dos variables cuantitativas y es un número sin unidad de medida comprendido entre -1 y +1. Un valor de 0 indica que no existe relación lineal entre las dos variables. Los valores positivos indican que valores altos de X se asocian con valores altos de Y, y valores de r negativos indican que valores altos de X se asocian con valores bajos de Y. Existen diferentes expresiones para obtener la correlación entre dos variables cuantitativas según el tipo de puntuaciones que estemos empleando. (Ver puntuación directa, puntuación diferencial o puntuación típica).
 
 

Datos con coeficiente de correlación próxima a +1.

Datos con coeficiente de correlación próxima a +1.

Dats con coeficiente de correlación próxima a -1

Datos con coeficiente de correlación próxima a -1.

Datos con coeficiente de correlación próximo a 0.

Datos con coeficiente de correlación próximo a 0.

Coeficiente de determinación
Es el coeficiente de correlación de Pearson al cuadrado y toma cualquier valor positivo comprendido entre 0 y 1. Se interpreta como proporción de varianza explicada, es decir, de toda la variabilidad de la variable Y una determinada proporción se debe a la variabilidad de la variable X.Por ejemplo, imagine que entre las variables, X puntuación en un test de habilidad numérica e Y nota en esta asignatura existe una correlación de 0,7. Entonces el coeficiente de determinación vale 0,49 que significa que el 49% de la variabilidad de las notas obtenidas por todos los alumnos en la asignatura, es explicada –o se debe- a la habilidad numérica. El 51% restante de la variabilidad de las notas se deberá a otras variables no incluidas en la regresión (por ejemplo, la motivación, el esfuerzo, el tiempo dedicado al estudio, etc.)Con otras palabras, indica el grado en que una variable es capaz de predecir otra con la que está relacionada.
Coeficiente de variación
Es un índice de variabilidad especialmente útil para comparar variabilidades de características de diferente naturaleza, o de la misma naturaleza en diferentes grupos y es igual al cociente entre la desviación típica y la media. El resultado de este cociente es un número abstracto que indica el número de veces que el numerador (la desviación típica) contiene al denominador (la media), con independencia de la unidad en que haya sido medida la variable. A este índice así obtenido se le denomina coeficiente de variación o coeficiente de variabilidad relativa y se expresa así
Coeficiente de variación
Combinatoria
Es una rama de las matemáticas que estudia las diferentes formas de agrupamiento y combinación de un conjunto de elementos y establece las propiedades y leyes de formación de las agrupamientos resultantes. Conocer estas diferentes formas de agrupamiento nos permitirá dar respuesta a preguntas como las siguientes ¿De cuantas formas distintas pueden sentarse tres niños y dos niñas en la primera fila de una clase?.Con un banco de 100 preguntas tipo test ¿cuántas pruebas diferentes de 25 preguntas puedo construir?, o ¿de cuántas formas diferentes se pueden asignar cinco empleados de un comercio a tres secciones distintas?
Confirmatorio (enfoque)
Es la forma de abordar muchos análisis estadísticos cuando se realizan para que los datos confirmen (o refuten) las hipótesis que se plantean, en vez de plantearse la cuestión de manera exploratoria de forma tal que sean los propios datos los que nos "digan" las relaciones o tendencias que hay entre las diferentes características objeto de estudio.
Conocimiento científico
Es el conocimiento adquirido utilizando el método científico.
Constante
En contraste con la definición ofrecida de variable, cuando una característica presenta una sola modalidad, o cuando los objetos presentan la misma magnitud de una determinada característica, decimos que se trata de una constante, y los objetos o entidades estudiadas tendrán todos el mismo valor numérico.
Correlación biserial-puntual
Es el coeficiente de correlación que se aplica cuando se trata de cuantificar la relación que existe entre una variable dicotómica por esencia (p.e., sexo), o dicotomizada por conveniencia con otra variable cuantitativa. Su expresión es la siguiente donde es la media de las puntuaciones de la variable cuantitativa X cuando la variable dicotómica (o dicotomizada) Y tiene valor 1. es la media de las puntuaciones de la variable cuantitativa X cuando la variable dicotómica (o dicotomizada) Y tiene valor 0. SX es la desviación típica de la variable cuantitativa X. p es la proporción de observaciones cuyo valor en Y es 1. q es la proporción de observaciones cuyo valor en Y es 0. El rango en valor absoluto que se puede obtener con el coeficiente de correlación biserial puntual está entre 0, cuando las medias de la variable cuantitativa para cada categoría de la variable cualitativa son iguales hasta 1. El signo en este índice dependerá de cuál de las dos medias se sitúen en el numerador de la expresión. Si la media de X cuando Y=1 es mayor que la media de X cuando Y=0, entonces la correlación saldrá positiva indicando relación directa entre la variable X y el valor 1 de Y. Por el contrario, si la media de X cuando Y=1 es menor que la media de X cuando Y=0, entonces la correlación saldrá negativa indicando relación directa entre la variable X y el valor 0 de Y.
Correlación de Spearman
Cuando queremos analizar la relación entre variables ordinales, se aplica el coeficiente de correlación de rangos de Spearman. Para ello, se asignan rangos u órdenes a cada valor de la variable y se calcula el cuadrado de las diferencias (di) de rangos entre las dos variables. Se suman estos cuadrados, , y por último se obtiene el coeficiente con la siguiente expresión donde n es el tamaño de la muestra o número total de observaciones. Los valores del coeficiente de correlación de Spearman oscilan entre -1, cuando hay una perfecta relación inversa entre los órdenes de las dos variables, 0, cuando no hay relación entre ambas variables, y +1, cuando hay una relación perfecta directa entre las órdenes de ambas variables.
Correlación espuria
Cuando se observa un coeficiente de correlación lineal alto entre dos variables, lo único que se puede concluir es que están relacionados entre sí, pero no siempre se puede establecer un nexo de causalidad de una variable respecto de otra. Hay muchas variables que presentan una alta correlación entre sí, pero ello se debe a la presencia de una tercera variable que tiene una fuerte relación entre ellas. Este tipo de correlaciones se denominan correlaciones espurias. Hay muchos casos que ilustran este tipo de correlaciones, por ejemplo, la alta correlación que se da entre el número de matrimonios celebrados y la temperatura media mensual. En ningún caso se debe caer en el error de pensar que una variable es “causa” de la otra, el sentido común nos lleva a pensar que la relación es meramente fortuita o producida por alguna otra variable que no hemos contemplado y que pudiera estar relacionada con las dos variables que presentan una alta correlación entre sí (la mayor parte de las parejas suelen aprovechar los periodos veraniegos para contraer matrimonio, y son precisamente esos períodos en los que la temperatura es mayor).
Correlación phi
El coeficiente de correlación fi (o phi) es válido para establecer la asociación existente entre dos variables cualitativas con cualquier número de categorías de las variables. Su expresión es El valor mínimo de este índice es 0, que se obtiene cuando el valor de Chi cuadrado es cero. En cuanto al valor máximo, el índice phi puede alcanzar valores mayores a 1 cuando el valor de chi cuadrado sea superior al número de observaciones de la muestra. Hay, sin embargo, un tipo de variables cualitativas, las denominadas variables dicotómicas, que sólo tienen dos categorías posibles (sexo, por ejemplo). Para este tipo de variables, el coeficiente de correlación puede ser también el siguiente Con variables dicotómicas el coeficiente phi sólo puede obtener valores absolutos entre 0 y 1, y además será positivo o negativo dependiendo de cual de los productos del numerador sea mayor. Por ello, para su interpretación hay que considerar la distribución de las frecuencias en la tabla.
Covarianza
Índice que evalúa el grado con que dos variables cuantitativas varían conjuntamente. Puede tomar cualquier valor positivo o negativo. Un valor positivo indica que aumentos en una variable se corresponden con aumentos en la otra. Un valor negativo indica que aumentos en una variable se corresponden con decrementos o disminuciones en la otra. Si las dos variables son independientes, la covarianza es cero. Cuando se dice que una variable aumenta o disminuye en promedio, se quiere resaltar que lo que va aumentando o disminuyendo son las medias de una variable condicionada a los valores de la otra, mas que los valores concretos en sí. (Ver Media condicionada). Se obtiene calculando la media de los productos de las desviaciones respecto a la media de las dos series de puntuaciones.
 
Covarianza
Cuartil
Los cuartiles son las puntuaciones que dividen la distribución en cuatro partes iguales con el 25% de los datos en cada una de ellas. Hay, por tanto, tres cuartiles el primer cuartil corresponde con el percentil 25 y deja por debajo el 25% de los datos. El segundo cuartil corresponde con el percentil 50 y la mediana y el tercer cuartil corresponde con el percentil 75. Entre dos cuartiles consecutivos se encuentra el 25% de los datos.
Cuasi-varianza
Es un índice de variabilidad que se obtiene sumando los cuadrados de las diferencias de todas las puntuaciones respecto a la media y dividiendo entre (n-1). Su utilidad estriba en que es el mejor estimador de la varianza poblacional, frente a la varianza de la muestra que estima con error la varianza de la población. Por esta razón, se la conoce tambien con el nombre de varianza insesgada. Cuando las muestras son grandes la varianza y la cuasi-varianza prácticamente coinciden ya que apenas se producen diferencias al dividir la suma de los cuadrados de las desviaciones entre n o entre n-1.
 
Cuasi-varianza
Curtosis
Se refiere al grado de apuntamiento de la distribución de frecuencias. Cuando es muy apuntada, se dice que es leptocúrtica, y si es muy aplastada, se dice que es platicúrtica. Un grado intermedio entre estos grados de apuntamiento es la distribución mesocúrtica, que es la distribución normal o de referencia para establecer el grado de apuntamiento.
 
Curtosis

subir

D
Decil
Los deciles son las puntuaciones que dividen la distribución en diez partes iguales con el 10% de los datos en cada una de ellas.
Desviación media
Es la media de las diferencias en valor absoluto de n puntuaciones respecto de su media aritmética. Es decir, dadas las puntuaciones X1, X2, ..., Xn, su desviación media, DM, es
Desviación media
El hecho de que en este índice se tomen las diferencias en valor absoluto de cada puntuación respecto de la media aritmética, se deriva de la primera propiedad de este índice de tendencia central.
Desviación típica
Es la raíz cuadrada positiva de la varianza. Es un índice de variabilidad o dispersión de un conjunto de datos respecto a la media.
Desviación típica
Diagrama de árbol
Representación gráfica que permite dibujar y calcular el número de elementos del espacio muestral de un experimento aleatorio.
Diagrama de dispersión
Es una alternativa a los diagramas tridimensionales para representar gráficamente dos variables cuantitativas medidas conjuntamente. Se llama también "nube de puntos" y es la representación gráfica de dos variables en la que cada punto representa una determinado dato definido por unas coordenadas que corresponden a los valores de esa observación en la variable X e Y. En el eje horizontal se sitúa los valores de la variable independiente y en el eje vertical los de la variable dependiente. Este tipo de gráfico es especialmente útil en el análisis de correlación y regresión.
Diagrama de dispersión
Diagrama tridimensional
Permite representar gráficamente la distribución conjunta de frecuencias absolutas (o de proporciones) de dos variables y es útil cuando el número de valores o categorías de cada variable no es muy elevado. En caso contrario el número de barras (o rectángulos, según el caso) que puede resultar haría poco informativo el diagrama y las barras quedarían ocultas unas detrás de otras. Lo mismo sucede con las variables cuantitativas continuas cuando se quiere representar mediante una histograma tridimensional sin agrupar los datos en intervalos. Una alternativa a los diagramas tridimensionales para representar gráficamente dos variables cuantitativas medidas conjuntamente es el denominado diagrama de dispersión o nube de puntos.
Diagrama de Tallo y Hojas
Es un tipo de representación gráfica muy utilizada dentro del Análisis Exploratorio de datos y muy relacionado con el histograma con la ventaja de aportar más información donde los tallos se representan en el eje vertical y corresponden a la amplitud de los intervalos del histograma y las hojas a la frecuencia.
 
Tallo y hojas
 
Diagrama tridimensional
Permite representar gráficamente la distribución conjunta de frecuencias absolutas (o de proporciones) de dos variables y es útil cuando el número de valores o categorías de cada variable no es muy elevado. En caso contrario el número de barras (o rectángulos, según el caso) que puede resultar haría poco informativo el diagrama y las barras quedarían ocultas unas detrás de otras. Lo mismo sucede con las variables cuantitativas continuas cuando se quiere representar mediante una histograma tridimensional sin agrupar los datos en intervalos. Una alternativa a los diagramas tridimensionales para representar gráficamente dos variables cuantitativas medidas conjuntamente es el denominado diagrama de dispersión o nube de puntos.
Diseño de investigación
Es la determinación de un plan de trabajo o procedimiento para la recogida de datos.
Distribución binomial
Es la distribución de probabilidad de una variable aleatoria discreta que describe el número de sucesos que se presentarán para un número dado de ensayos y conocida la probabilidad de aparición del suceso.
Distribución binomial negativa
Es la distribución de probabilidad de una variable aleatoria discreta que describe el número de ensayos que se requieren para conseguir k éxitos.
Distribución chi-cuadrado
O ji-cuadrado es la distribución de probabilidad de una variable continua (ver variable chi-cuadrado)
Distribución condicionada
En una distribución conjunta de frecuencias absolutas (o de frecuencias relativas), recibe el nombre de distribución condicionada la distribución de una de las variables condicionada a cada valor de la otra variable. Así, por ejemplo, si tenemos dos variables, X "Hábitos de lectura" e Y "Horas de consumo de TV" la distribución condicionada de frecuencias absolutas se obtiene dividiendo cada frecuencia absoluta conjunta por su correspondiente frecuencia marginal; es decir
 
Distribución condicionada

donde nij frecuencia conjunta y n.j frecuencia marginal. Esta distribución condicionada nos informa de la proporción de observaciones de cada uno de los valores de una variable asociado a cada uno de los valores de la otra. Por ejemplo, nos permite conocer los "hábitos de lectura" para los diferentes valores de "horas de consumo de TV" y, viceversa, las "horas de consumo de TV" para los diferentes "hábitos de lectura".
Distribución conjunta de frecuencias absolutas
Es una tabla de doble entrada, en la que por el lado de las filas se sitúan las categorías de la variable X, y por el lado de las columnas se sitúan las categorías de la variable Y. En cada celdilla de la tabla se presenta la frecuencia absoluta conjunta.
Distribución conjunta de frecuencias relativas
La distribución conjunta de frecuencias relativas, o proporciones, es una tabla de doble entrada, en la que por el lado de las filas se sitúan las categorías de la variable X, y por el lado de las columnas se sitúan las categorías de la variable Y. En cada celdilla de la tabla se presenta la frecuencia relativa conjunta o proporción conjunta.
Distribución de Bernouilli
Es la función de probabilidad de un experimento aleatorio en el que sólo pueden ocurrir dos sucesos mutuamente excluyentes y que se denomina experimento de Bernouilli en honor del matemático Jacobo Bernouilli que derivó su función de probabilidad
Distribución de frecuencias
Es una tabla donde de forma ordenada se presentan los diferentes valores o modalidades que presenta una variable (o característica) con el número de observaciones (frecuencia) que presentan la misma modalidad. La suma de las frecuencias de cada modalidad es igual al tamaño de la muestra o número total de observaciones. Por ejemplo, en una muestra de 150 emigrantes su lugar de procedencia ha sido
 
Distribución de frecuencias

Distribución de Poisson
Es el límite al que tiende la distribución binomial cuando el número de ensayos, N, aumenta y la probabilidad de aparición de un suceso, p, tiende a cero. Por esta razón se la denomina también como "Ley de los sucesos raros". Por ejemplo, nacimientos de trillizos en una ciudad. La distribución de Poisson tiene una función de probabilidad conocida que se define mediante una simple ecuación matemática que permite obtener las probabilidades de aparición de un determinado suceso.
Distribución de porcentajes
Es una tabla donde de forma ordenada se presentan los diferentes valores o modalidades que presenta una variable (o característica) con el porcentaje (tanto por ciento) de observaciones que corresponde a cada modalidad. La suma de los porcentajes de cada modalidad es igual 100. Por ejemplo, en una muestra de 150 emigrantes el porcentaje de su lugar de procedencia ha sido
 
Distribucion de porcentajes
Distribución de probabilidad
De una variable aleatoria discreta es una lista de las probabilidades asociadas con cada posible valor de la variable. Se la llama también Función de Probabilidad o, en otros textos, Función de Masa de Probabilidad y más formalmente se define como una función que asigna probabilidades a cada valor, xi, de la variable aleatoria discreta, X. Se representa por f(x) = P(X= xi) y cumple las siguientes condiciones

que indica que la función de probabilidad no puede tomar valores negativos ni mayores de 1 y que la suma de las probabilidades asignadas a todos los posibles valores discretos de la variable es igual a 1. Algunas variables aleatorias tienen como función de probabilidad una función o ecuación matemática conocida. Por ejemplo, la función de probabilidad de la distribución binomial, es
 
Distribución de probabilidad
Distribución de proporciones
Es una tabla donde de forma ordenada se presentan los diferentes valores o modalidades que presenta una variable (o característica) con proporción (tanto por uno) de observaciones que corresponde a cada modalidad. La suma de las proporciones de cada modalidad es igual 1. Por ejemplo, en una muestra de 150 emigrantes la proporción de su lugar de procedencia ha sido
 
Distribución F
Es la función de densidad de probabilidad de la variable F
Distribución heterogénea
Es una distribución con una alta variabilidad con los datos muy dispersos y alejados de su tendencia central.
Distribución homogénea
Es una distribución con poca variabilidad porque sus datos se encuentran muy concentrados respecto a su tendencia central.
Distribución marginal
En una tabla de distribución conjunta de frecuencias absolutas (o de frecuencias relativas), cada una de las dos variables tiene su propia distribución, la misma que si consideráramos cada variable por separado. Estas dos distribuciones se llaman marginales, ya que se colocan en los márgenes de la distribución conjunta, y se obtienen a partir de la distribución conjunta de una manera muy sencilla sumando las filas, por un lado, y las columnas, por otro. Por tanto, las distribuciones marginales de una distribución conjunta de dos variables, X e Y, se reduce a dos distribuciones (de frecuencias absolutas o de proporciones) de una variable. Una representa la distribución de la variable X, sin considerar a la variable Y, y la otra representa la distribución de la variable Y sin tener en cuenta la variable X
Distribución muestral
Es la distribución de probabilidad de un estadístico calculado en todas las posibles muestras del mismo tipo y tamaño extraídas de una determinada población. Se demuestra que la distribución muestral de la media es, o se aproxima, a la distribución normal. El conocimiento de la distribución muestral de los estadísticos es la base de la inferencia estadística y el contraste de hipótesis que se estudia en cursos posteriores.
Distribución multinomial
Es una generalización de la distribución binomial en la que (a diferencia de ésta basada en variable aleatoria de Bernouilli) cada ensayo puede presentar más de dos categorías, exhaustivas y mutuamente excluyentes. Sus características son: a)consiste en N pruebas independientes. b)cada prueba o ensayo presenta más de dos resultados. c) las probabilidades correspondientes a cada uno de los resultados permanece constante y tales que su suma es igual a 1.
Distribución normal
Se estudia como distribución de frecuencias que representa la distribución de muchas variables y como distribución de probabilidad por su especial incidencia en la inferencia estadística y contraste de hipótesis que se estudiarán en cursos posteriores. Esta distribución se debe a Carl Friedrich Gauss que estudió y describió sus propiedades matemáticas.
Distribución normal estándar o tipificada
Es una distribución normal con media cero y desviación típica uno.
Distribución t
Distribución de probabilidad de la variable t de Student
Doble sumatorio
Supongamos que un grupo total se descompone en k grupos con n personas cada uno, es decir todos los grupos tienen el mismo número de personas


donde Xij representa la puntuación de la persona i que pertenece al grupo j. La suma de las n puntuaciones del grupo total vendrá dada por

Dicho en palabras, el doble sumatorio significa el sumatorio de los sumatorios de las puntuaciones de las personas en cada grupo.

subir

E
Ecuación de regresión
La ecuación de regresión es una función matemática que representa la relación entre dos o mas variables. En este curso se estudia la ecuación de regresión lineal simple entre dos variables X e Y que viene definida por la ecuación de una recta, de expresión Esta ecuación queda perfectamente definida cuando se obtienen los valores de la ordenada, a y la pendiente, b.
Enfoque confirmatorio
Es la forma de abordar muchos análisis estadísticos cuando se realizan para que los datos confirmen (o refuten) las hipótesis que se plantean, en vez de plantearse la cuestión de manera exploratoria de forma tal que sean los propios datos los que nos "digan" las relaciones o tendencias que hay entre las diferentes características objeto de estudio.
Enfoque exploratorio
El enfoque exploratorio trata de que sean los propios datos los que nos "digan" las relaciones que hay entre las diferentes características objeto de estudio. En contraste al modo confirmatorio, el modo exploratorio está abierto a un amplio abanico de explicaciones alternativas, lo cual no significa que el modo confirmatorio deba ser desterrado del análisis sino, más bien, que no debe ser el que se emplee de manera exclusiva.
Entidades estadísticas
Cada uno de los elementos que componen una población
Equiprobables
Dos o mas sucesos son equiprobables si tienen la misma probabilidad de ocurrencia.
Error absoluto
Es la diferencia , en valor absoluto, entre el valor observado y el pronosticado mediante la recta de regresión.
 
Error absoluto
Error de agrupamiento
Cuando se ordenan los datos en intervalos y asumen todos el valor del punto medio, se pierde la información de cada puntuación concreta, lo que puede producir un error, que se conoce como error de agrupamiento. En algunos intervalos, el punto medio puede ser una sobreestimación de los valores originales, mientras que en otros intervalos se puede dar una subestimación. En distribuciones de frecuencia con un número elevado de datos, los errores por exceso en unos intervalos tienden a compensarse con los errores por defecto de otros, con lo cual, a efectos del análisis estadístico, el empleo del punto medio como valor representativo del intervalo, produce resultados similares a los producidos si se emplearan los datos originales.
Error de pronóstico
Es la diferencia entre la puntuación observada, Y, y la pronosticada, Y', mediante la ecuación de regresión. Esto es
 
Error típico
Es la desviación típica de la distribución muestral de un determinado estadístico. De esta forma, el error típico de la media es la desviación típica de la distribución muestral de la media. Con otras palabras, la desviación típica de todas las medias calculadas en todas las posibles muestras del mismo tipo y tamaño, n, extraidas de una determinada población de tamaño N.
Error típico de estimación
Es la desviación típica (raíz cuadrada de la varianza) de los errores o residuos de la regresión.
Escala de intervalo
En una escala de intervalo el punto cero es arbitrario y posee unidad de medida, por lo que los números asignados tienen ya un significado de cantidad, en el sentido ordinario de la palabra. Un ejemplo sencillo y muy ilustrativo son las escalas Centígrada (ºC) y Farenheit (F) de temperatura, donde como se sabe para la escala Centígrada el punto 0 corresponde a la temperatura de congelación del agua y el punto 100 a la temperatura de ebullición. El cero es arbitrario y no indica carencia del atributo medido, o lo que es lo mismo, no indica ausencia de calor. En una escala de intervalo el número 20 no representa el doble de cantidad del atributo medido que el 10, de forma que 20ºC no es el doble de calor que 10º, pero por el contrario, la diferencia entre dos valores de la escala representan distancias entre cantidades de la propiedad medida, de tal forma que podemos decir que la diferencia entre 40ºC y 30ºC es el doble de la diferencia entre 20º y 15ºC. Esto es así, como ya se ha señalado, porque el punto 0 no representa carencia del atributo medido sino que es un punto cero arbitrario. Respecto a las transformaciones admisibles es cualquier transformación lineal tal de los valores iniciales que deja la escala invariante
Escala de medida
Es un procedimiento por el cual se relacionan de manera biunívoca (uno a uno) un conjunto de modalidades (distintas) con un conjunto de números (distintos). Esto es, a cada modalidad le corresponde un sólo número, y a cada número le corresponde una sola modalidad. Atendiendo a las relaciones que puedan verificarse empíricamente entre las modalidades de los objetos o características pueden distinguirse cuatro tipo de escalas de medida, según el esquema tradicional propuesto por Stevens (1946) en su primera publicación sobre teoría de la medida escala nominal, escala ordinal, escala de intervalo y escala de razón.
Escala de razón
La escala de razón es la más rica en cuanto a la información que proporciona, porque además de poseer todas las propiedades de las escalas anteriores igualdad - desigualdad (escala nominal), orden (escala ordinal), y distancia (escala de intervalo), tiene la ventaja de tener un cero absoluto que indica carencia absoluta del atributo medido. Esta es la escala más habitual para medir propiedades físicas, como el peso, la altura, el volumen, etc., pero es difícil encontrar variables psicológicas que puedan medirse con esta escala. Por eso, podemos afirmar que el que mide 180 cm, es el "doble" de alto que el que mide 90cm pero nunca que un CI de 180 es el doble de otro CI de 90, a menos que la variable inteligencia la podamos medir con escala de razón donde el punto cero represente al que carece "absolutamente" de inteligencia. En consecuencia, la escala de razón incorpora las características del sistema numérico de las escalas anteriores la igualdad, el orden y la distancia, a la que añade la propia de esta escala que es la igualdad de razones. Al tener un origen de escala absoluto, la única transformación admisible para la escala de razón es del tipo g(x)=bx siendo b > 0. Esta transformación supone simplemente un cambio en la unidad de medida de la escala, preservando siempre el origen de la misma.
Escala nominal
En todas aquellas modalidades o características en las que la única comprobación empírica que puede hacerse es la de igualdad o desigualdad, su representación numérica ha de tener un carácter meramente nominal. A este nivel de relaciones empíricas (igualdad-desigualdad) el hecho de atribuir números hay que entenderlo como simples símbolos o nombres y por tanto no gozan de propiedades matemáticas. No se pueden sumar, restar, multiplicar o dividir, y tanto daría, pues, cambiarlos por símbolos no numéricos. Las tipologías respecto al carácter, según la cual los seres humanos pueden encuadrarse en una de las cuatro categorías flemático, melancólico, sanguíneo o colérico, son un ejemplo de escala nominal de características psicológicas. Es fácil adivinar el tipo de transformación admisible que se puede aplicar en este tipo de escalas cualquiera que preserve las relaciones de igualdad-desigualdad de los objetos respecto a una determinada característica.
Escala ordinal
Son aquellas características objeto de estudio científico en las que se observan relaciones de un nivel superior al de la simple igualdad-desigualdad que caracteriza la escala nominal. Los objetos pueden manifestar determinada característica en mayor grado unos que otros, de modo que la escala que los represente debe preservar esas relaciones empíricas observadas de orden. En el ámbito de las ciencias sociales, muchas son las características en las que las relaciones empíricas de los objetos que comparten dichas características, tienen un carácter ordinal. Por ejemplo, si no se sabe nada de la materia, o se sabe muy poco, lo más probable es que el juicio que el profesor haga de su exposición sea de "suspenso"; por el contrario, si se sabe bien la materia, y de igual manera se expresa, lo más probable es que el juicio sea de "sobresaliente". Si en vez de estos términos se emplea una escala numérica 0 para suspenso, 1 para aprobado, 2 para notable, 3 para sobresaliente y 4 para matrícula de honor, la conclusión que sacará el lector de, pongamos, dos expedientes académicos de 2 alumnos distintos que hayan cursado una misma materia, es que si uno de los alumnos ha obtenido un 3 y el otro un 1, el primero ha exhibido un mayor conocimiento de la materia que el segundo, o, lo que es lo mismo, que el segundo tenía menos conocimientos que el primero. Respecto a las transformaciones que admite la escala ordinal de medida, puede decirse que, en general, cualquier transformación es válida siempre que preserve el orden de magnitud, creciente o decreciente, en que los objetos presentan determinada característica.
Espacio muestral
Es el conjunto formado por todos los resultados posibles de un experimento aleatorio. Se representan con la letra mayúscula E y también se llama universo o población del experimento.
Esperanza matemática
O valor esperado de una variable aleatoria es el promedio o valor central de la variable. Es un resumen numérico de la tendencia central de la distribución de probabilidad (si la variable es discreta) o de la función de densidad de probabilidad (si la variable es continua). Se conoce también con el nombre de "momento respecto al origen de primer orden" y se representa con la letra E y entre paréntesis la variable cuya esperanza se describe E(X), E(Y), E(W), etc, o con la letra griega "mu"( µ) y como subíndice la variable que se representa, etc.
 
Esperanza matemática
Estadística
Definida por Amón, (1984; p.37) como " la ciencia que recoge, ordena y analiza los datos de una muestra, extraída de cierta población, y que, a partir de esa muestra, valiéndose del cálculo de probabilidades, se encarga de hacer inferencias acerca de la población".
Estadístico
Un estadístico es un valor que se calcula a partir de los datos de una muestra. Se utilizan para representar una característica de la muestra y para estimar el mismo valor referido a la población de la cual se ha extraído la muestra. Por ejemplo, la media calculada en una muestra proporciona información sobre la correspondiente media poblacional. El valor numérico de estos estadísticos dependen de la composición de la muestra y variará de una muestra a otra. Se representan por letras del alfabeto latino. Por ejemplo, rxy, se utiliza para representar la correlación entre dos variables X e Y observadas en una muestra. mientras que el mismo concepto, referido a la población, se denomina parámetro y se representan con letras del alfabeto griego
Estadísticos robustos.
Son índices estadísticos descriptivos provenientes del análisis exploratorio de datos que tienen la peculiaridad de ser resistentes a los datos extremos de la distribución. Entre ellos se encuentran MEDIA RECORTADA, MEDIA WINSORIZADA,MEDIA CENTRAL,MEDIANA RECORTADA O TRIMEDIA y la MEDA.
Experimento
Es el desarrollo de un proceso mediante el cual obtenemos un conjunto de resultados, observaciones o datos con el fin de realizar una comprobación o verificar una hipótesis.
Experimento aleatorio
es cualquier experimento realizado al azar que se puede repetir indefinidamente en las mismas condiciones y cuyo resultado no se puede predecir con certeza. cumple las cuatro condiciones siguientes a) Se puede repetir indefinidamente en las mismas condiciones. b) En cada ensayo se obtiene un resultado que pertenece al universo o conjunto de todos los resultados posibles, E. c) Antes de cada ensayo no se puede predecir con certeza el resultado que obtendremos. d)A medida que el número de ensayos aumenta, la frecuencia relativa - o proporción - de aparición de cada resultado posible tiende a aproximarse a un valor fijo.
Exploratorio (enfoque)
El enfoque exploratorio trata de que sean los propios datos los que nos "digan" las relaciones que hay entre las diferentes características objeto de estudio. En contraste al modo confirmatorio, el modo exploratorio está abierto a un amplio abanico de explicaciones alternativas, lo cual no significa que el modo confirmatorio deba ser desterrado del análisis sino, más bien, que no debe ser el que se emplee de manera exclusiva.

subir

F
Frecuencia
Es el número de veces que un valor de la variable aparece en un conjunto de observaciones.
Frecuencia absoluta
Número de veces que se repite cada uno de los valores de la variable. Se simboliza por ni.
La suma de todas las frecuencias absolutas representa el total de la muestra n.
Frecuencia absoluta conjunta
Se representa por nij y corresponde al númerode datos (la frecuencia) que pertenece a la categoría i-ésima de lavariable X y a la categoría j-ésima de la variable Y. Lapresentación de esta información en forma de tabla se conoce como distribuciónconjunta de frecuencias absolutas.

 

Frecuencia acumulada
Representa el número total de observaciones o datos desde el valor mínimo hasta un cierto valor. (Ver Acumulada)
Frecuencia relativa
Es sinónimo de proporción.
Frecuencia relativa conjunta
O proporción conjunta se representa por pij y corresponde a la proporción de datos que pertenece a la clase i-ésima de la variable X y a la clase j-ésima de la variable Y. La presentación de esta información en una tabla se conoce como distribución conjunta de frecuencias relativas.
Frecuencias esperadas
En los problemas de relación entre variables categóricas que se presentan en tablas de contingencia, las frecuencias esperadas son las frecuencias que se deberían presentar en cada celda de la tabla en el supuesto de que las variables fuesen independientes.
Frecuencias observadas
En los problemas de relación entre variables categóricas que se presentan en tablas de contingencia, las frecuencias observadas o empíricas son las frecuencias que tenemos realmente en cada celda de la tabla y representan los datos actuales de la tabla. Estas frecuencias observadas son las que se comparan con las "frecuencias esperadas" para estudiar la relación entre las variables de nuestro estudio.
Función de densidad de probabilidad
Es una función que describe el comportamiento matemático de la probabilidad de una variable aleatoria continua. Conceptualmente es equivalente a la función de probabilidad de una variable aleatoria discreta, pero referido a una variable continua, y en consecuencia, permite obtener la probabilidad de que la variable aleatoria tome un valor en un intervalo dado. Ejemplo de funciones de densidad de probabilidad de variables aleatorias continuas son la distribución normal, la F de Fisher, la t de Student y la chi-cuadrado.
Si f(x) es una función de densidad de probabilidad de una variable aleatoria, se cumplen las siguientes condiciones

  • La probabilidad total para todos los posibles valores de la variable aleatoria continua es uno


  • La función de densidad de probabilidad nunca puede ser negativa f(x)>0
Función de distribución
Toda variable aleatoria discreta o continua tiene su función de distribución que representa la probabilidad de que, para cualquier valor de xi, la variable aleatoria, X, tome valores menores o iguales que xi.
Se representa por

Para una variable discreta, la función de distribución se obtiene sumando, o acumulando, las probabilidades de la función de probabilidad desde el menor valor de la variable al mayor.
Por ejemplo, suponiendo que para una variable aleatoria discreta su función de probabilidad es
 
xi 0 1 2 3 4 5
f(xi) = P(X =xi) 0.1 0.2 0.2 0.3 0.1 0.1

Su función de distribución es, acumulando las probabilidades, la siguiente
 
xi 0 1 2 3 4 5
F(xi) = P(X <xi) 0.1 0.3 0.5 0.8 0.9 1

Para una variable aleatoria continua, su función de distribución, se obtiene, o bien calculando la integral de su función de densidad de probabilidad, o consultando las tablas correspondientes (de las distribuciones continuas más conocidas) que vienen en cualquier texto de estadística, o utilizando el CD-Rom de nuestra asignatura.
Función de probabilidad
Es sinónimo de distribución de probabilidad

subir

G
Grados de libertad
Hace referencia al número de datos de información independientes disponibles después de realizar un cálculo numérico. Por ejemplo, si conocemos la media de n valores, podemos asignar valores a n-1 y el último quedará determinado automáticamente para cumplir la condición de que la media sea el valor fijado. En este caso, el cálculo de la media se realiza con n-1 grados de libertad.

subir

H
Histograma
Un tipo de representación gráfica, para variables continuas, formada por una serie de barras contiguas de altura proporcional a la frecuencia de la categoría de la variable.

subir

I
Indices de posición
permiten determinar la posición relativa de una puntuación dentro del conjunto de puntuaciones. La mediana, los percentiles, los deciles y los cuartiles son los índices de posición.
Intervalo
Es sinónimo del concepto de modalidad y corresponde a cada uno de los grupos de valores, delimitados por dos números, en que se clasifican los datos observados de una variable (habitualmente de tipo cuantitativo) y que ocupan una fila en una distribución de frecuencias.
Intervalo crítico
Es el intervalo que contiene el índice de posición (percentil, decil o cuartil) que se desea obtener con datos agrupados en intervalos. Por ejemplo, para el cálculo de la mediana, el primer paso es determinar en qué intervalo se encontrará. A este intervalo se le denomina intervalo crítico y para determinarlo se requiere obtener las frecuencias acumuladas o proporciones acumuladas. Hecho esto, el intervalo crítico es el primer intervalo cuya frecuencia acumulada sea mayor o igual al 50% de n o cuya proporción acumulada sea mayor o igual a 0,50.
Intervalo de confianza
Intervalo construido a partir de la información proporcionada por la muestra que cogerá el valor numérico del parámetro poblacional con una probabilidad determinada.
Intervalo de probabilidad
Intervalo teórico, construido a partir de la distribución de probabilidad de un determinado estadístico, que contiene el valor que tomaría ese estadístico calculado en cualquier muestra de un tamaño determinado extraído de la población.
Investigación científica
Esquemáticamente, y siempre con el riesgo que esta simplificación supone, podemos señalar que una investigación científica conlleva los siguientes pasos Un primer nivel teórico-conceptual que incluiría
  1. Definición del problema.
  2. Deducción de hipótesis contrastables.
Un segundo nivel técnico-metodológico constituido por aspectos propiamente metodológicos
  1. Establecimiento de un procedimiento de recogida de datos.(Diseño de investigación)
Finalmente, en un nivel estadístico-analítico
  1. Análisis de los resultados obtenidos.
  2. Discusión de dichos resultados y búsqueda de conclusiones
  3. Elaboración de un informe de investigación.
La interpretación de los resultados obtenidos nos llevaría nuevamente al nivel teórico-conceptual, iniciándose nuevamente el proceso y dando lugar a una estructura cíclica característica de toda investigación científica.

subir



L
Límites aparentes
Corresponden a los valores observados (ver valor aparente) en una variable con nuestro instrumento de medida y que definen un intervalo con una frecuencia absouta determinada.
Límites exactos
Son los valores máximo y mínimo que tendría cada intervalo si el instrumento de medida tuviera una precisión perfecta. Por ejemplo, cuando se pesa un objeto con una balanza con precisión de 1 gramo, el peso que se lee es una aproximación al número entero más cercano. Si el objeto, según esa balanza, informa de un peso de 40 gramos hay que entender que el peso real del objeto se encuentra en el intervalo 40 ± 0,5, es decir el peso real estará entre 39,5 y 40,5 gramos. El valor que se lee en el instrumento (40 gramos) se conoce como valor informado o valor aparente, mientras que los valores que acotan el intervalo (39,5 y 40,5) se conocen como límites exactos.

subir

M
Meda
Es un índice de dispersión o variabilidad resistente que corresponde a la mediana de las desviaciones, en valor absoluto, de cada puntuación a la mediana.
Media
La media se utiliza para representar a todos los datos de la distribución y es el valor alrrededor del cual tienden a agruparse todas las observaciones. Se obtiene sumando todas las puntuaciones de la distribución y dividiendo por el número de puntuaciones sumadas. Su expresión matemática es:
Media
En notación sumatorio, la media se escribe:
Media
Media central
Con los datos ordenados la media central es el promedio de la parte central de la distribución una vez que se han sustituido los valores extremos por los valores centrales.
Media condicionada
En una distribución conjunta de frecuencias absolutas de dos variables X e Y, podemos calcular la media de X condicionada a cada una de los valores de Y, y de igual forma podemos calcular la media de Y condicionada a cada uno de los valores de X. Aunque se puede calcular por diferentes procedimientos, su expresión general es:
 
Media condicionada

siendo Yj valores discretos de la variable Y, o puntos medios de los intervalos en el caso de variables continuas agrupadas en intervalos; j = 1, 2, 3,..., k; nij frecuencias conjuntas de Y para el valor i de X, y ni. frecuencia marginal del valor Xi de la variable X. De forma similar escribiríamos la media de X condicionada a los diferentes valores de Y. Por ejemplo, supongamos que tenemos una tabla de distribución conjunta de frecuencias absolutas que representan las puntuaciones de un test de razonamiento numérico, X, para las diferentes edades, Y, de escolarización de la ESO. La media de X condicionada a los distintos valores de Y, nos informa de la media del test para las diferentes edades de escolaridad de la ESO.
Media recortada
Es un estadístico de tendencia central resistente a las desviaciones de los datos en uno de los extremos de la distribución. Para su cálculo, se ordenan los datos y se excluyen un determinado porcentaje de los valores extremos en los dos lados de la distribución calculándose la media aritmética de los restantes valores.
Media winsorizada
Es un índice de tendencia central resistente a las desviaciones de los datos extremos de la distribución. Una vez ordenados los datos, un determinado porcentaje de valores extremos se sustituyen por el valor inmediatamente anterior o posterior y se calcula la media de todos los valores.
Mediana
Es el valor de la variable que deja por debajo al 50% de las observaciones. Por tanto, es el valor de la variable que divide a la distribución en dos parte iguales cada una de las cuales contiene el 50% de los datos.
Mediana recortada
Es un índice resistente utilizado dentro del Análisis Exploratorio que se obtiene mediante una media ponderada de los tres cuartiles. El cuartil segundo (o mediana) tiene doble ponderación que los cuartiles primero y tercero.
Medición
Proceso por el cual se asignan números a objetos o características según determinadas reglas. Esta definición implica poner en correspondencia, por un lado, números, y por otro objetos o características con sus correspondientes modalidades. Entre los números se dan ciertas relaciones que son válidas dentro del mundo aritmético, que es un mundo ideal. También entre las modalidades de las características se dan determinadas relaciones que son verificables en el mundo empírico, es decir en el mundo real. Pues bien, medir supone poner en relación estos dos mundos, el ideal de los números y el real de los objetos, de modo que las relaciones que se dan en el mundo numérico preserven exactamente las relaciones que se observan en el mundo empírico, y sólo serán válidas aquellas relaciones numéricas que puedan ser verificables empíricamente.
Medida
Es el proceso por el cual se asignan números a objetos o características según determinadas reglas. Esta definición implica poner en correspondencia, por un lado, números, y por otro objetos o características con sus correspondientes modalidades. Entre los números se dan ciertas relaciones que son válidas dentro del mundo aritmético, que es un mundo ideal. También entre las modalidades de las características se dan determinadas relaciones que son verificables en el mundo empírico, es decir en el mundo real. Pues bien, medir supone poner en relación estos dos mundos, el ideal de los números y el real de los objetos, de modo que las relaciones que se dan en el mundo numérico preserven exactamente las relaciones que se observan en el mundo empírico.
Método científico
Se caracteriza por ser "sistemático" y "replicable". El término sistemático hace referencia a que se trata de un proceso que tiene unos pasos perfectamente establecidos y el término replicable hace referencia a que los datos obtenidos mediante su uso pueden ser replicados o refutados por cualquier investigador que lo desee.
Moda
El valor de la variable que más se repite, por tanto, es el valor de la variable con mayor frecuencia.
Modalidad
Una modalidad es cada uno de las variantes como se manifiesta una característica. El estado civil, o las creencias religiosas, son características que presentan pocas modalidades. Por el contrario, muchas características objeto de estudio científico pueden presentar un número casi infinito de modalidades. Si tomamos por ejemplo la altura o el peso de la población española, estaremos ante características con un infinito número de modalidades, pues aunque dos modalidades estén muy próximas, siempre son posibles modalidades intermedias.
Modelo
Un modelo permite, haciendo uso de desarrollos matemáticos o de otros lenguajes formales, elaborar una serie de predicciones que pueden ser contrastadas empíricamente.
Muestra
Una muestra es una selección de datos extraídos de una población o universo de posibles observaciones. La muestra se debe seleccionar de tal forma que sea representativa de la población de origen. Una de los procedimientos de seleccionar muestras representativas es el muestreo aleatorio simple donde cada elemento de la población tiene la misma probabilidad de formar parte de la muestra.
Muestra aleatoria simple
La muestra aleatoria simple es una selección al azar de un conjunto de observaciones que formaran la muestra para el análisis de datos.
Muestreo
La estadística ha desarrollado toda una teoría específica en el que se estudian procedimientos y técnicas para la extracción de muestras representativas de una población determinada, y que se engloban bajo la denominación de muestreo.

subir

N
Nube o diagrama de puntos
Es la representación gráfica de dos variables en la que cada punto representa una determinado dato definido por unas coordenadas que corresponden a los valores de esa observación en la variable X e Y. En el eje horizontal se sitúa los valores de la variable independiente y en el eje vertical los de la variable dependiente. Este tipo de gráfico es especialmente útil en el análisis de correlación y regresión.
 

subir

O
Ordenada
En la ecuación de regresión, la ordenada es el valor que toma la variable dependiente, Y, cuando la variable independiente, X, toma el valor 0. Gráficamente corresponde al punto donde la recta corta al eje vertical (o eje de ordenadas). Usualmente, la ordenada se representa por la letra a.
Ordenada

En la recta de la figura cuya ecuación es Y=0,933+0,74X. El valor de Y cuando X= 0 corresponde al punto donde la recta corta con el eje de ordenadas, Y. Este valor es la ordenada de la recta y, en este ejemplo vale 0,933.
Outlier
Un valor extremo o atípico que es muy diferente del resto de observaciones de la muestra

subir

P
Parámetro
Nombre dado a cualquier índice numérico que describe alguna característica de la población su tendencia central, variabilidad, asimetría, relación, covariación, etc. Se representan por letras del alfabeto griego, por ejemplo, , se utiliza para representar la correlación entre dos variables X e Y de la población. Suele ser un valor desconocido que se estima -o infiere- a partir de los valores observados en la muestra. De la inferencia de parámetros se ocupa la Estadística Inferencial que se estudiará en otros cursos.
Pendiente
La pendiente de la ecuación de regresión de Y sobre X se representa por la letra b e indica el cambio que se produce en la variable Y por cada cambio unitario en la variable X. Gráficamente representa la "inclinación" de la recta de regresión. Si la relación entre las variables es positiva la pendiente también es positiva. Si la relación entre las variables es negativa la pendiente también es positiva. Si no existe relación lineal entre las variables la pendiente es cero.

En la Figura se ha trazado la recta cuya ecuación es Y=0,933+0,74X. El valor de la pendiente, como se ha señalado, es la variación que se produce en la variable Y cuando X aumenta una unidad. Como el lector puede comprobar el valor de Y para X = 4 es 3,893, y para X = 5 es 4,633; la diferencia entre estos dos valores es exactamente el valor de la pendiente, es decir, 4,633 - 3,893 = 0,74 = b.
Percentil
Es el valor de la variable que deja por debajo un porcentaje determinado de observaciones. Existen 99 percentiles que son los que van desde el percentil 1 al 99 de tal forma que el percentil 73 sería el valor de la variable de observación que deja por debajo el 73% de los datos. El percentil 25 es lo mismo que el primer cuartil. El percentil 50 es lo mismo que la mediana, que el decil 5 y que el segundo cuartil. El percentil 75 es lo mismo que el tercer cuartil. Por tanto, la escala de percentiles divide a la distribución en 100 partes iguales de tal forma que entre dos percentiles consecutivos se encuentra el 1% de las observaciones.
Población
Por población estadística se entiende el conjunto de todos los elementos que comparten una o varias características. A cada uno de los elementos que componen una población se le denomina de manera genérica entidades estadísticas, y de acuerdo al número de las entidades que la componen, una población puede ser finita o infinita. El conjunto de españoles que padecen trastornos epilépticos, los municipios con cinco mil habitantes o menos, los parados registrados en el Instituto Nacional de Empleo, el conjunto de libros publicados en una año por una editorial, el total de accidentes de tráfico ocurridos en las carreteras españolas durante el año 1999, son ejemplos claros de poblaciones finitas. Por el contrario, el lanzamiento reiterado de una moneda, o el conjunto de números naturales (1,2,3...), son ejemplos de poblaciones infinitas dado que no hay un límite establecido en ninguno de estos dos conjuntos; siempre se puede tirar la moneda una vez más y, respecto al conjunto de números naturales, por muy grande que sea un número siempre habrá otros que lo superen
Porcentaje
Simbolizado por Pi, es el valor de la frecuencia relativa multiplicado por cien. Expresado formalmente Pi = pi · 100. Indica el tanto por ciento (%) de observaciones de una determinada modalidad o valor de la variable de estudio.
Porcentaje acumulado
Ver acumulada.
Probabilidad
Teoría matemática que estudia la posibilidad de ocurrencia de sucesos o acontecimientos. En términos matemáticos la probabilidad tiene tres definiciones la definición clásica, la definición estadística y la definición axiomática.
Probabilidad acumulada
Representa la suma de probabilidades desde el menor valor posible hasta un cierto valor. En los modelos de distribución de variables aleatorias discretas, la probabilidad acumulada corresponde a la función de distribución de probabilidad.
Promedio
La media aritmética se conoce también con el nombre de promedio y corresponde a la suma de todas las observaciones o datos dividido por el número de datos.
 

Es un valor de la variable que se encuentra hacia el centro de la distribución de frecuencias, se le denomina genéricamente como tendencia central y sintetiza todos los valores de la distribución.
Proporción
Simbolizada por pi, es el cociente entre la frecuencia absoluta de cada clase, ni y el número total de observaciones, n. Expresado formalmente pi = ni/n. La frecuencia relativa o proporción indica el tanto por uno de observaciones que corresponden a una categoría o valor de la variable de estudio.
Proporción acumulada
Ver acumulada.
Proporción de varianza explicada
En la ecuación de regresión, la varianza de la variable dependiente se puede descomponer en la suma de dos varianzas la varianza de las puntuaciones pronosticadas, y la varianza del error o varianza de los residuos. Los pronósticos son una función lineal de la variable independiente X, función que viene especificada por la propia recta de regresión , por lo que la varianza de las puntuaciones pronosticadas, Y´, dependen de la varianza de X, tal y como indica la siguiente expresión



mientras que los residuos no dependen de ninguna variable o lo que es igual, no es función de ninguna variable conocida e incluida en la ecuación de regresión. Entonces, si la varianza de Y se puede expresar como la suma de la varianza de los pronósticos y la varianza de los residuos


y la varianza de las puntuaciones pronosticadas depende de la varianza de X, entonces la varianza de Y se puede explicar en parte por la varianza de X. Es decir, una parte de la variabilidad de Y puede ser explicada, una vez construida la recta de regresión por la propia variabilidad de X. Expresada en términos de proporciones la proporción de la variabilidad de Y que es explicada por la variabilidad de los pronósticos (que a su vez son función de la variabilidad de X) será




que corresponde con el coeficiente de determinación, mientras que la proporción de la variabilidad de Y que no se puede explicar por variabilidad de los pronósticos será
 
 
Punto medio del intervalo
Se utiliza para representar a todos los datos contenidos en ese intervalo y es igual a la semisuma de los límites exactos o de los límites aparentes. La agrupación de datos en intervalos puede producir lo que se conoce como error de agrupamiento.
Puntuación diferencial
Representa la diferencia o distancia de una puntuación a su media. Se representan por la letra x minúscula y es igual a la diferencia entre la puntuación directa y la media. Puede tomar valores positivos, negativos o cero. Una puntuación diferencial positiva indica que la puntuación directa está por encima de la media del grupo. Una puntuación directa negativa indica que la puntuación directa está por debajo de la media y una puntuación diferencial de cero indica que la puntuación directa coincide con la media. Las puntuaciones diferenciales tienen media cero y desviación típica la misma que la de las puntuaciones directas.
Puntuaciones derivadas
Las puntuaciones típicas tienen media cero y desviación típica 1 por lo que toman valores positivos o negativos además de tener un rango de variación muy pequeño. Para evitar estos inconvenientes es frecuente utilizar las puntuaciones derivadas que constituyen otro tipo de puntuaciones que se obtienen por transformación lineal de las puntuaciones típicas y muy utilizadas en el ámbito de la psicometría para expresar las puntuaciones de los test. Estas son las puntuaciones:a) T de McCall con media 50 y desviación típica 10, es decir T=10z+50b) Escala CI (Cociente intelectual), con media 100 y desviación típica 15, que es ampliamente utilizada en los tests de inteligencia: CI=15z+100c) Escala de estaninos, del inglés stanines (standard nine) con media 5 y desviación típica 2. Deja la escala dividida en nueve puntos o estaninos: E=2z+5.
Puntuaciones directas
Se representan por letras mayúsculas y corresponden a las puntuaciones observadas, por ejemplo, la puntuación de un sujeto en un test, su tiempo de reacción ante un estímulo, etc
Puntuaciones equivalentes.
Son aquellas a las que corresponden la misma puntuación típica. Las puntuaciones típicas reflejan las relaciones entre las puntuaciones con independencia de la unidad de medida. Por eso cuando las puntuaciones típicas son iguales se dice que las puntuaciones son equivalentes. Puede demostrarse que si dos grupos de puntuaciones típicas son equivalentes sus respectivas puntuaciones directas están relacionadas mediante una transformación lineal.
Puntuaciones pseudotípicas
A las puntuaciones típicas pronosticadas mediante la ecuación de regresión en puntuaciones típicas


se las llama puntuaciones pseudotípicas, porque igual que las puntuaciones típicas, z, tienen media cero, pero a diferencia de éstas, su desviación típica no es uno sino es igual al valor absoluto del coeficiente de correlación.

subir

R
Rango u órdenes
Valores numéricos que indican únicamente el orden de unos valores o categorías de la variable
Recorrido (del sumatorio)
Debajo del símbolo sumatorio se indica el lugar de la serie por el que hay que empezar; y por encima se indica qué valor de la serie va a ser el último en ser sumado. Estos valores indican el recorrido del sumatorio. Por ejemplo



Con mucha frecuencia hay que sumar todos los valores de la serie. En ese caso, y siempre que no haya lugar a dudas, no es preciso indicar el recorrido, y se puede escribir



o, sencillamente
 
 
Regresión
El análisis de regresión sirve para representar la dependencia lineal entre dos variables X e Y. Normalmente la variable Y es la variable dependiente o variable respuesta, respecto de la variable X, llamada variable independiente o variable predictora. Deben su nombre genérico, modelos de regresión, a los trabajos que efectuó Francis Galton (1822 - 1911) a finales del siglo XIX en los que estudió la dependencia entre las alturas de los hijos y las de los padres y encontró un efecto que denominó "regresión a la media" y que consistía en lo siguiente los padres altos tienen en general hijos altos, pero en promedio un poco menos altos que los padres; por el contrario, los padres bajos tienen hijos bajos, pero en promedio algo menos bajos que los padres. También comprobó que los descendientes de sujetos situados en las partes extremas de la distribución se aproximan, en promedio, más a la media que sus padres, y a este fenómeno, general en todos los seres vivos, lo denominó regresión a la media.
Representación gráfica
Ss una forma útil de visualizar un conjunto de datos, de modo que el investigador o usuario de estadísticas pueda formarse una primera impresión de carácter global de cómo se distribuyen. El tipo de representación gráfica depende de la variable objeto de estudio, por ejemplo, el histograma, polígono de frecuencias, diagrama de sectores, diagrama de barras o de rectángulos, etc.
Residuos
Es sinónimo de error de pronóstico
Resistente
El concepto de resistente, aplicado a un estadístico se refiere a que su valor no cambia sustancialmente aunque haya modificaciones en un porcentaje pequeño de datos en las partes extremas de la distribución.

subir

S
Sesgo
Sinónimo de asimetría.
Suceso complementario.
Ver suceso contrario.
Suceso seguro
Es el que ocurre siempre que se realiza el experimento aleatorio. Por ejemplo, al lanzar un dado y ver la puntuación que obtenemos, el suceso A= {puntuación menor de 7} es un suceso seguro porque con toda seguridad siempre que lancemos el dado obtendremos una puntuación menor que 7.
Sucesos compatibles
Son aquellos que sí pueden presentarse a la vez. En el lanzamiento del dado, si definimos los sucesos A = {número par}; B = {6}; C = {5,3,1}. Los sucesos A y C son incompatibles por que no pueden aparecer simultáneamente un número par que sea 5, 3 ó 1; pero no así los sucesos A y B que son compatibles ya que se puede dar un resultado que simultáneamente sea par y sea el 6.
Sucesos dependientes
Son aquellos cuya probabilidad de aparición depende del suceso que haya surgido anteriormente. Por ejemplo, la probabilidad de ser mujer y morena, no es la misma en España que en Marruecos, por lo que el suceso “ser morena” depende, en este caso, del lugar de procedencia.
Sucesos disjuntos
o sucesos excluyentes, son aquellos que no pueden aparecer a la vez. Por tanto su intersección es vacía. Ver sucesos incompatibles.
Sucesos independientes
Dos sucesos A y B son independientes cuando la probabilidad de aparición de uno de ellos no depende de la ocurrencia del otro.
Sumatorio
La expresión X1 + X2 + ... + Xn indica la suma de los n valores de la serie. Una manera de simbolizar esta operación de sumar es la siguiente



donde el símbolo

(letra griega sigma) representa el sumatorio.

subir

T
Tabla de contingencia
Una tabla de contingencia es una forma de ordenar los datos para estudiar la relación entre variables con pocas modalidades. De otra forma, es una tabla de distribución de frecuencias clasificada de acuerdo a los valores que puede tomar las dos variables (clasificación cruzada. Se utilizan, entonces, para presentar datos categóricos incluyendo las frecuencias o porcentajes dentro de cada categoría.
Tendencia central
Los índices de tendencia central (también denominados índices de concentración) están especialmente diseñados para encontrar ese valor promedio en torno al cual se concentra buena parte de las observaciones. Los índices de tendencia central, pues, representan a la distribución en su conjunto y hacen posible que puedan ser comparadas diferentes distribuciones de la misma variable.
Teorema Central del límite
Establece que cuando se extrae una muestra aleatoria simple de tamaño n se extrae de una población en la que la variable tiene una distribución cualquiera con media, µ, y varianza, , entonces la distribución muestral de la media, , se distribuye de forma aproximadamente normal con media, µ, y varianza . A medida que aumenta el tamaño de la muestra, n, la aproximación a la normal mejora. Este teorema es muy útil en la inferencia y contraste de hipótesis ya nos permite utilizar pruebas que asumen la distribución normal aunque nuestros datos no se distribuyan normalmente.
Transformación admisible
Hace referencia al problema de la unicidad de la medida y que puede plantearse de la siguiente manera ¿son las representaciones numéricas que hacemos de las modalidades las únicas posibles? La respuesta es un rotundo NO, ya que cualquier representación numérica que preserve las relaciones empíricamente verificables será esencialmente correcta. Por ejemplo, a la hora de asignar valores numéricoas a la característica sexo, se puede asignar un 1 a la modalidad "hembra" y un 0 a la modalidad "macho", pero también se puede asignar un 5 a la primera modalidad y un 4 a la segunda; estas últimas asignaciones (5 y 4) preservan las relaciones empíricas de igualdad-desigualdad de la característica sexo lo mismo que las preservan las primeras (1 y 0). Entonces, para una escala nominal, como ésta, cualquier transformación que preserve las relaciones de igualdad-desigualdad de los objetos respecto a una determinada característica, es una transformación admisible.
Transformación lineal
Una transformación lineal de una serie de puntuaciones, X, consiste en multiplicar cada una de ellas por un determinado valor y sumarle otro valor, con lo cual las nuevas puntuaciones, Y, son: Y = a + bX donde X son las puntuaciones originales. De esta forma, las nuevas puntuaciones Y tienen de media y desviación típica los siguientes valores:
Trimedia
Ver Mediana recortada

subir

U
Universo
En el contexto de los experimentos aleatorios es sinónimo de espacio muestral.

subir

V
Valor aparente
(o también valor informado). Por ejemplo, cuando se pesa un objeto con una balanza con precisión de 1 gramo, el peso que se lee es una aproximación al número entero más cercano. Si el objeto, según esa balanza, informa de un peso de 40 gramos este valor que se lee en el instrumento se conoce como valor aparente o valor informado. Sin embargo, hay que entender que el peso real del objeto, debido a la imprecisión del instrumento de medida, es un valor comprendido en el intervalo 40 ± 0,5, es decir el peso real estará entre 39,5 y 40,5 gramos. Los valores que acotan el intervalo (39,5 y 40,5) de los valores aparentes se conocen como límites exactos.
Variabilidad
Es un índice o medida que resume el grado de concentración de los valores de una distribución en torno a su promedio. Si los valores están muy cercanos al promedio se habla de una distribución homogénea; si, por el contrario, los valores se alejan del promedio se habla de una distribución heterogénea.
Variable
En su acepción estadística, una variable es una representación numérica de una característica. Cuando efectuamos la medida de una característica determinada, atribuimos números a los objetos según sea la cuantía que presenten de dicha característica. Esta representación numérica refleja el hecho de que los objetos varían respecto a la característica objeto de estudio, y por tanto permite diferenciar unos objetos de otros.
Variable aleatoria
Una variable aleatoria es una función que asigna un número, y solo uno, a cada resultado de un experimento aleatorio. El valor de la variable aleatoria puede cambiar de ensayo a ensayo cuando el experimento se repite sucesivamente. La variable aleatoria puede ser discreta o continua. Por ejemplo, el número de aciertos que se cometen al responder al azar a un test de conocimientos formado por N ítems con tres alternativas de respuesta (de las que solo una es correcta) es una variable aleatoria que puede tomar cualquier valor discreto desde 0 (para el que no acierta ninguna pregunta) hasta N (para el que acierta todas). Toda variable aleatoria tiene asociado su distribución de probabilidad (si la variable es discreta) o su función de densidad de probabilidad (si la variable aleatoria es continua)
Variable aleatoria continua
Cuando la variable aleatoria, toma cualquier valor numérico de un conjunto infinito -y por tanto no numerable- de casos posibles, decimos que la variable aleatoria es continua. En este caso, entre dos valores cualesquiera de la variable, por muy próximos que estén, podemos encontrar infinitos valores intermedios. Los siguientes casos Tiempo que tarda una rata en recorrer un laberinto, el cociente intelectual, la longitud de unos estímulos presentados en experimentos de percepción visual, el tiempo de reacción ante un estímulo, son ejemplos de variables teóricamente continuas que puede presentar valores como 3.7, 3.8, 3.72 o 3.721 segundos y entre dos cualesquiera de ellos, v.gr. 3.721 y 3.722 seg, existen infinitos valores intermedios como 3.721049, 3.72119, 3.72196 etc.
Variable aleatoria de Bernouilli
Es aquella variable aleatoria que se origina en aquellos experimentos en los que sólo se pueden dar dos valores hombre-mujer; cara-cruz; salud-enfermedad; acierto-fallo, etc. El espacio muestral es binario y los valores numéricos asignados a cada suceso del espacio muestral suelen ser 1 y 0.
Variable aleatoria discreta
Cuando la variable aleatoria, X, es un conjunto de valores numéricos definidos sobre un conjunto finito o infinito, pero en cualquier caso numerable (susceptibles de ser contados) de casos posibles, decimos que la variable aleatoria es discreta. En este caso entre dos valores consecutivos no existen valores intermedios, porque la variable aleatoria X toma valores únicamente en los puntos x1, x2,..., xn. con probabilidades respectivas pi siendo nula la probabilidad de que tome cualquier otro valor. Los siguientes casos número de asignaturas matriculadas por los alumnos de 1º de Psicología, la edad - contada en años- de estos alumnos, el número de ítems contestados correctamente en un test, son ejemplos de variables discretas y los son también la mayoría de las situaciones que requieren un conteo.
Variable categórica
Llamada también variable cualitativa es aquella que se mide con escala nominal de tal forma que los valores que presenta corresponden a categorías discretas. Estas categorías no pueden ser ordenadas y representan grupos diferentes, como, el tipo de religión, el sexo, etc.
Variable chi-cuadrado
Es una variable continua definida como la suma de una serie de variables con distribución normal estándar.
Variable continua
Una variable continua es aquella que puede tomar un número infinito de posibles valores, de tal forma que entre dos cualesquiera de ellos por próximos que estén, existen infinitos valores posibles. Por ejemplo, la altura, el tiempo de reacción a un estímulo, y por lo general todas aquellas que requieren una medida.
Variable cualitativa
Es sinónimo de variable categórica.
Variable dependiente
Es la variable observada en un experimento que no queda bajo control directo del experimentador.
Variable dicotómica
Es un tipo especial de variable cualitativa, que sólo puede adoptar dos valores. Por ejemplo, la variable sexo o la variable "resultado que se obtiene al lanzar una moneda". Toda variable continua es susceptible de ser "dicotomizada", por ejemplo, la variable "altura" siendo una variable continua puede presentarse "dicotomizada" en altos y bajos.
Variable discreta
Una variable discreta es aquellas que toma unos valores concretos que pueden ser contados como 0, 1, 2, 3, 4, ...Si una variable puede tomar solo un número finito de valores, decimos que es discreta. Como ejemplo de variable discreta está el número de respuestas correctas contestadas en un test, el número de hijos de una familia y por lo general todas aquellas variables que requieren un conteo.
Variable F
Variable continua que se define como el cociente entre dos variables chi-cuadrado dividida cada una de ellas por sus respectivos grados de libertad. Puede tomar cualquier valor positivo y tiene una función de densidad de probabilidad conocida como distribución F
Variable independiente
Es la variable controlada o manipulada por el experimentador con el fin de analizar su efecto sobre la variable dependiente u observada.
Variable nominal
Es lo mismo que una variable categórica. Los valores o números que presenta una variable nominal corresponden a "nombres" o etiquetas. Por ejemplo, la profesión es un tipo de variable nominal o categórica. Si una variable nominal sólo presenta dos categorías, recibe el nombre de variable dicotómica.
Variable ordinal
Es un tipo de variable medida con escala ordinal y cuyos valores solo pueden ser ordenados no pudiendo establecerse distancias entre valores. Por ejemplo, los números asignados a los candidatos que se presentan a una oposición en función de la puntuación obtenida en la prueba forman una variable ordinal.
Variable t
Es una variable continua definida como el cociente entre una variable normal tipificada , z, y la raiz cuadrada de una variable chi-cuadrado, dividida por sus grados de libertad. La variable t, así definida, puede tomar cualquier valor, positivo o negativo y tiene una función de densidad de probabilidad conocida que recibe el nombre de distribución t de Student en honor de su descubridor, el matemático Gosset que publicó sus trabajos con el seudónimo de Student
Variables aleatorias independientes
Dos variables aleatorias X e Y son independientes si los valores de X no influyen sobre los valores de Y, y viceversa, si los valores de Y no influyen sobre los valores de X. Con otras palabras, dos variables X e Y son independientes si los valores de X no afectan a la distribución de probabilidad de Y. Entonces se cumple que en la distribución de probabilidad conjunta f(xy)=f(x).g(y)
Varianza
Es un índice de variabilidad o dispersión de las observaciones de una variable respecto a su media que se calcula promediando los cuadrados de las desviaciones de todos los datos respecto a su media. Se utiliza para describir la variabilidad de una variable medida al menos con escala de intervalo. La varianza, por ser un índice definido en función de las distancias cuadráticas de cada puntuación respecto de la media, sólo puede tomar valores positivos. El valor mínimo de la varianza es cero, y este valor se obtendrá sólo cuando todas las puntuaciones sean iguales.
Varianza de error
También llamada varianza residual y se designa por , o , nosotros utilizaremos habitualmente esta última expresión para representar la varianza de los errores de pronóstico. Su expresión es la siguiente y representa la variabilidad de todos los errores de pronóstico o residuos al pronosticar Y a partir de X que están representados por las líneas verticales del dibujo
Varianza residual
Ver varianza de error

subir