Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Anotada Output MANOVA Esta página mostra um exemplo de análise de variância multivariada (MANOVA) em Stata com notas de rodapé explicando a saída. Os dados utilizados neste exemplo são da experiência seguinte. Um pesquisador atribui aleatoriamente 33 indivíduos a um de três grupos. O primeiro grupo recebe informação dietética técnica interativamente a partir de um site on-line. O grupo 2 recebe as mesmas informações de uma enfermeira, enquanto o grupo 3 recebe as informações de uma fita de vídeo feita pela mesma enfermeira. Cada sujeito então fez três avaliações: dificuldade, utilidade e importância das informações na apresentação. O pesquisador analisa três classificações diferentes da apresentação (dificuldade, utilidade e importância) para determinar se há uma diferença nos modos de apresentação. Em particular, o pesquisador está interessado em saber se o site interativo é superior, porque essa é a forma mais rentável de entregar a informação. No conjunto de dados, as classificações são apresentadas nas variáveis úteis. Dificuldade e importância. O grupo de variáveis indica o grupo ao qual um assunto foi atribuído. Estamos interessados em como a variabilidade nas três classificações pode ser explicada por um grupo de sujeitos. Group é uma variável categórica com três valores possíveis: 1, 2 ou 3. Como temos várias variáveis dependentes que não podem ser combinadas, escolheremos usar MANOVA. Nossa hipótese nula nesta análise é que um grupo de sujeitos não tem efeito em nenhuma das três classificações diferentes. Podemos começar examinando as três variáveis de resultado. Observe que Stata rotula o grupo 1 como o grupo de tratamento, o grupo 2 como o controle1. E o grupo 3 como controlo2. Em seguida, podemos inserir o nosso comando MANOVA. Ao analisarmos nossos resultados, iremos nos referir aos autovalores da matriz soma-de-quadrados do modelo e à matriz soma-de-quadrados do erro. Esses valores serão informativos na compreensão da saída MANOVA. Para exibir os valores, pedimos Stata para listar a matriz de eigenvalues do modelo. Valores próprios a Saída MANOVA b a. Valores próprios - São os autovalores do produto da matriz soma-de-quadrados do modelo e a matriz soma-de-quadrados do erro. Há um autovalor para cada um dos três autovetores do produto da matriz de soma do modelo de quadrados ea matriz de soma de erros de quadrados, uma matriz 3x3. Como apenas dois estão listados aqui, podemos assumir que o terceiro eigenvalue é zero. Esses autovalores estão entre os resultados salvos de nossa manova em Stata. Eles são usados no cálculo das estatísticas multivariadas de teste e, portanto, são úteis para considerar quando se olha para a saída MANOVA. B. Saída MANOVA - Em Stata, a saída MANOVA inclui quatro estatísticas multivariadas de teste para cada variável preditora. Os quatro testes estão listados acima da tabela de saída. Para cada uma das quatro estatísticas de teste, uma estatística F e o p-valor associado também são exibidos. C. Wilks lambda - Isso pode ser interpretado como a proporção da variância nos resultados que não é explicada por um efeito. Para calcular Wilks Lambda, para cada autovalor, calcule 1 / (1 o autovalor), então encontre o produto dessas razões. Assim, neste exemplo, primeiro calcularia 1 / (10.8919879) 0.5285446, 1 / (10.00524207) 0.9947853 e 1 / (10) 1. Em seguida, multiplique 0,5285446 0,9947853 1 0,5258. D. Pillais traço - Esta é outra estatística de teste multivariada. Para calcular o rastro de Pillais, divida cada autovalor por 1 a raiz característica, então somas estas proporções. Portanto, neste exemplo, você primeiro calcular 0,8919879 / (10,8919879) 0,471455394, 0,00524207 / (10,00524207) 0,005214734 e 0 / (10) 0. Quando estes são adicionados chegamos a Pillais traço: (0,471455394 0,005214734 0) 0,4767. E. Traço de Lawley-Hotelling - Isto é muito similar a Pillais Trace. É a soma das raízes do produto da matriz soma-de-quadrados do modelo ea matriz soma-de-quadrados do erro para as duas funções de regressão linear e é uma generalização direta da estatística F em ANOVA. Podemos calcular o Traço de Hotelling-Lawley somando as raízes características listadas na saída: 0.8919879 0.00524207 0 0.8972. F. Raiz maior de Roys - Esta é a maior das raízes do produto da matriz soma-de-quadrados do modelo ea matriz soma-de-quadrados do erro para as duas funções de regressão linear. Porque é um máximo, ele pode se comportar de forma diferente das outras três estatísticas de teste. Nos casos em que os outros três não são significativos e Roys é significativo, o efeito deve ser considerado insignificante. G. Fonte - Indica a variável preditora em questão. Em nosso modelo, estamos considerando o grupo como uma fonte de variabilidade nas classificações. H. Estatística - Esta é a estatística de teste para a dada fonte listada na coluna anterior e a estatística multivariada indicada com a letra (W, P, L ou R). Para cada variável independente, são calculadas quatro estatísticas de teste multivariadas. Veja os sobrescritos c, d, ee f. Eu. Df - Este é o número de graus de liberdade. Aqui, nosso preditor tem três categorias e nosso conjunto de dados tem 33 observações, portanto temos 2 graus de liberdade para a hipótese, 30 graus residuais de liberdade e 32 graus de liberdade total. J. F (df1, df2), F - As duas primeiras colunas (df1 e df2) listam os graus de liberdade usados na determinação das estatísticas F. A terceira coluna lista a estatística F para a determinada fonte eo teste multivariável. K. Prob gt F - Este é o p-valor associado com a estatística F de um dado efeito e estatística de teste. A hipótese nula de que um dado preditor não tem qualquer efeito sobre qualquer um dos resultados é avaliada em relação a este p-valor. Para um dado nível alfa, se o valor p for menor que alfa, a hipótese nula é rejeitada. Se não, então não conseguimos rejeitar a hipótese nula. Neste exemplo, rejeitamos a hipótese nula de que o grupo não tem efeito nas três classificações diferentes no nível alfa .05 porque os valores p são todos inferiores a 0,05. eu. E exato, um limite aproximado, u superior em F - Isso indica como a estatística F foi calculada (se foi um cálculo exato, uma aproximação ou um limite superior) para cada um dos testes multivariados. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata Análise de Dados Exemplos One-way MANOVA Versão info. O código para esta página foi testado no Stata 12. MANOVA é usado para modelar duas ou mais variáveis dependentes que são contínuas com uma ou mais variáveis preditoras categóricas. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não abrange a limpeza e verificação de dados, verificação de suposições, diagnósticos de modelos ou análises de acompanhamento potenciais. Exemplos de análise multivariada de variância unidirecional Exemplo 1. Um pesquisador designa aleatoriamente 33 indivíduos para um de três grupos. O primeiro grupo recebe informação dietética técnica interativamente a partir de um site on-line. O grupo 2 recebe as mesmas informações de uma enfermeira, enquanto o grupo 3 recebe as informações de uma fita de vídeo feita pela mesma enfermeira. O pesquisador analisa três classificações diferentes da apresentação, dificuldade, utilidade e importância, para determinar se há uma diferença nos modos de apresentação. Em particular, o pesquisador está interessado em saber se o site interativo é superior, porque essa é a forma mais rentável de entregar a informação. Exemplo 2. Um psicólogo clínico recruta 100 pessoas que sofrem de transtorno de pânico em seu estudo. Cada indivíduo recebe um de quatro tipos de tratamento por oito semanas. No final do tratamento, cada participante participa de uma entrevista estruturada, durante a qual o psicólogo clínico faz três avaliações: fisiológicas, emocionais e cognitivas. O psicólogo clínico quer saber qual o tipo de tratamento que reduz os sintomas do transtorno do pânico, conforme medido nas escalas fisiológicas, emocionais e cognitivas. (Este exemplo foi adaptado de Grimm e Yarnold, 1995, página 246.) Descrição dos dados Vamos seguir o exemplo 1 acima. Temos um arquivo de dados, manova. dta. Com 33 observações em três variáveis de resposta. As variáveis de resposta são classificações chamadas úteis. Dificuldade e importância. O nível 1 da variável de grupo é o grupo de tratamento, o nível 2 é o grupo de controlo 1 eo nível 3 é o grupo de controlo 2. Vejamos os dados. É sempre uma boa idéia começar com estatísticas descritivas. Métodos de análise que você pode considerar Abaixo está uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros têm caído fora de favor ou têm limitações. MANOVA - Esta é uma boa opção se houver duas ou mais variáveis dependentes contínuas e uma variável preditora categórica. Análise de função discriminante - Esta é uma opção razoável e é equivalente a uma MANOVA unidirecional. Os dados poderiam ser remodelados em formato longo e analisados como um modelo multinível. ANOVAs univariadas separadas - Você poderia analisar esses dados usando ANOVAs univariadas separadas para cada variável de resposta. A ANOVA univariada não produzirá resultados multivariados utilizando informações de todas as variáveis simultaneamente. Além disso, testes univariados separados são geralmente menos poderosos porque não levam em consideração a inter-correlação das variáveis dependentes. One-way MANOVA Iniciaremos rodando o comando manova. Stata fornece quatro testes multivariados por padrão. Cada um destes testes é estatisticamente significativo. Para obter mais informações sobre esses testes, consulte a página Stata Annotated Output: MANOVA. O teste multivariado global é significativo, o que significa que existem diferenças entre os níveis do grupo variável. Para descobrir onde estão as diferenças, seguiremos com vários testes pós-hoc. Começaremos com o teste multivariado do grupo 1 versus a média dos grupos 2 e 3. Primeiro, usaremos o comando manova, showorder para determinar a ordem dos elementos na matriz de projeto. Saber a ordem dos elementos na matriz de projeto é necessário para executar os testes pós-hoc. (Observe que a ordem dos elementos na matriz de projeto mudou em Stata 11.) Vamos começar por comparar o grupo de tratamento (grupo 1) com uma média dos grupos de controle (grupos 2 e 3). Isto testa a hipótese de que os grupos de controlo médios são iguais ao grupo de tratamento. A saída acima indica que o quarto elemento na matriz é a constante, então no comando de matriz abaixo, vamos defini-lo como 0. Depois de ter criado uma matriz (que chamamos c1), podemos usar o comando manovatest para testar C1. Estes resultados indicam que o grupo 1 é estatisticamente significativamente diferente da média dos grupos 2 e 3. Agora vamos comparar o grupo de controlo 1 (grupo 2) com o grupo de controlo 2 (grupo 3). Novamente, precisamos criar uma matriz (chamada c2 neste exemplo) para fazer essa comparação e, em seguida, usar essa matriz no comando manovatest. Os resultados indicam que o grupo controle 1 não é estatisticamente significativamente diferente do grupo controle 2. Podemos usar o comando margens para obter valores preditos ajustados para cada um dos grupos. No primeiro exemplo abaixo, obtemos as médias previstas para a dificuldade da variável dependente. Nos dois exemplos seguintes, obtemos as médias preditas para as variáveis dependentes úteis e importantes. Esses valores podem ser úteis para ver onde as diferenças entre os níveis da variável preditora são e descrever o modelo. Em cada uma das três saídas acima, vemos que as médias previstas para os grupos 2 e 3 são muito semelhantes, a média prevista para o grupo 1 é maior do que para os grupos 2 e 3. Nos exemplos abaixo, obtemos as diferenças nos meios Para cada uma das variáveis dependentes para cada um dos grupos de controlo (grupos 2 e 3) em comparação com o grupo de tratamento (grupo 1). Com relação à dificuldade da variável dependente. A diferença entre as médias para o grupo de controlo 1 versus o grupo de tratamento é de aproximadamente -0,61 (5,58 - 6,19). A diferença entre as médias para o grupo de controlo 2 versus o grupo de tratamento é de aproximadamente -0,82 (5,37 - 6,19). Finalmente, vamos executar ANOVAs univariadas separadas. Usaremos um loop foreach para executar a ANOVA para cada variável dependente. Embora nenhum dos três ANOVAs foram estatisticamente significativos ao nível alfa 0,05, em particular, a razão F para a dificuldade foi inferior a 1. Coisas a considerar Um dos pressupostos de MANOVA é que as variáveis de resposta vêm de populações de grupos que são Multivariada normal distribuída. Isto significa que cada uma das variáveis dependentes é normalmente distribuída dentro do grupo, que qualquer combinação linear das variáveis dependentes é normalmente distribuída, e que todos os subconjuntos das variáveis devem ser multivariados normais. Um teste parcial dessa suposição pode ser obtido com o comando mvtest de normalidade. Por exemplo, mvtest normalidade difícil importância útil. (O comando mvtest foi introduzido no Stata 11.) Com relação à taxa de erro do Tipo I, o MANOVA tende a ser robusto a pequenas violações da suposição de normalidade multivariada. A homogeneidade das matrizes de covariância populacional (a. k.a. esfericidade) é outra suposição. Isto implica que as variâncias e covariâncias da população de todas as variáveis dependentes devem ser iguais em todos os grupos formados pelas variáveis independentes. Um teste desta suposição pode ser obtido com o comando de covariância mvtest. Por exemplo, mvtest covariance difícil importância útil, por (grupo). Pequenas amostras podem ter baixa potência, mas se a suposição de normalidade multivariada é satisfeita, o MANOVA é geralmente mais poderoso do que testes separados univariados. Existem pelo menos cinco tipos de análises de acompanhamento que podem ser feitas após um MANOVA estatisticamente significativo. Estes incluem ANOVAs univariadas múltiplas, análise stepdown, análise discriminante, contribuição variável dependente e contrastes multivariados. Ver também Referências Grimm, L. G. e Yarnold, P. R. (editores). 1995. Leitura e Compreensão Estatística Multivariada. Washington, D. C. American Psychological Association. Huberty, C. J. e Olejnik, S. 2006. Applied MANOVA and Discriminant Analysis, Second Edition. Hoboken, New Jersey: John Wiley e Sons, Inc. Stevens, J. P. 2002. Estatísticas Multivariadas Aplicadas para as Ciências Sociais, Quarta Edição. Mahwah, New Jersey: Lawrence Erlbaum Associates, Inc. Tatsuoka, M. M. 1971. Análise Multivariada: Técnicas para Pesquisa Educacional e Psicológica. Nova Iorque: John Wiley and Sons. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Introdução a estatísticas multivariadas Este curso envolveu estatísticas multivariadas, mas antes que possamos definir estatísticas multivariadas devemos definir o que Queremos dizer estatísticas univariadas. Definição. Estatística univariada inclui todas as técnicas estatísticas para analisar uma única variável de interesse (variável dependente). Ou se você gosta de uma única variável dependente. Nota: estatísticas univariadas incluem métodos, onde você pode ter uma ou mais variáveis explicativas (variáveis independentes), como acontece em regressão múltipla. Exemplos de métodos univariados são coisas como: No entanto, em muitas aplicações estatísticas, podemos estar interessados em mais de uma variável dependente. Definição. Estatísticas multivariadas inclui todas as técnicas estatísticas para analisar duas ou mais variáveis de interesse, ou se você gosta, duas ou mais variáveis dependentes. Vejamos um exemplo de um estudo estatístico multivariado. Exemplo: Women146s Nutrition Survey Em 1985, o USDA encomendou um estudo sobre a nutrição das mulheres. A ingestão de nutrientes foi medida para uma amostra aleatória de 737 mulheres com idade entre 25-50 anos. O objetivo do estudo foi quantificar os hábitos nutricionais de mulheres americanas. Em um estudo univariado, podemos nos concentrar em um único componente nutricional. Por exemplo, podemos perguntar a cada mulher no inquérito quanta vitamina C eles iriam tomar diariamente. No entanto, um estudo multivariado pode fazer perguntas mais interessantes, como olhar para mais de um componente nutricional. Certamente a vitamina C não é a única variável importante relacionada à nutrição das mulheres. Isto por si só proporcionaria uma imagem muito incompleta dos hábitos alimentares das mulheres. Assim, esta pesquisa particular não só olhou para a ingestão diária de vitamina C, mas também olhou para cálcio, ferro, proteína e vitamina A. Estudo multivariada. Foram mensuradas as seguintes variáveis: Questões de interesse Em uma análise multivariada, podem ser feitas várias perguntas diferentes. As perguntas mais simples têm a ver com uma única população. Estas questões podem incluir: 1. Para uma única população de mulheres, podemos perguntar: Pergunta 1. Qual é a média da ingestão diária de cada nutriente e vitamina As técnicas restantes que vamos dar uma olhada neste curso não têm análogos univariados. Considere esta questão. 4. Dado os valores para o consumo nutricional diário de uma mulher individual, poderíamos querer perguntar se ela tem ou não pressão arterial elevada Ou, em outras palavras, podemos prever se ela tem ou não pressão arterial elevada apenas a partir dos dados de ingestão Sozinho Como uma abordagem para responder a esta pergunta podemos obter dados de 8221ground-truth8221, amostragem não só as variáveis de ingestão nutricional, mas também medir a pressão arterial de um grande número de mulheres, a fim de descobrir se cada mulher tem pressão arterial elevada. O método estatístico que analisaremos aqui é chamado Análise Discriminante. Análise Discriminante produz uma função que pode ser capaz de prever se uma mulher tem ou não uma pressão arterial elevada. 5. Como é que as mulheres ingestão diária de nutrientes relacionados à sua saúde Outra pergunta que pode ser feita a estas mulheres é como a sua ingestão diária está relacionada com a sua saúde global. Neste caso, podemos não apenas medir os diferentes aspectos da ingestão nutricional, mas também medir outros resultados gerais de saúde também. Variáveis, incluindo: Pressão Arterial Freqüência Cardíaca Colesterol Glucose Índice de Massa Corporal O que gostaríamos de fazer é relacionar as variáveis de ingestão de nutrientes com as várias variáveis gerais de resultados de saúde. Este método estatístico que iremos analisar aqui é chamado de Análise de Correlação Canônica. A análise de correlação canônica descreve as relações entre os dois grupos de variáveis. 6. As mulheres podem ser divididas ou classificadas em grupos de indivíduos semelhantes? Finalmente, podemos perguntar se grupos de mulheres podem ser classificados em grupos de indivíduos semelhantes. Essa classificação pode ser projetada para desenvolver protocolo educacional específico de grupo. Talvez um protocolo educacional não se ajuste a todas as mulheres. O método estatístico que vamos analisar aqui é chamado Análise de Cluster. A análise de agrupamento descreve grupos semelhantes dentro de uma grande amostra.
No comments:
Post a Comment