Fitting Generalized Linear Latent Variable Models using the method of Extended Variational Approximation
Yhteisöekologian alalla tutkijat ovat usein kiinnostuneita yhden tai useamman kasvi- tai eläinlajin välisistä esiintyvyyssuhteista eri mittauspaikoilla tai ekosysteemeissä. Tämänkaltaiset tutkimuskysymykset johtavat luonnostaan moniulotteisen runsausdatan keräämiseen. Kasvi- tai eläinlajin ekologista runsautta tietyssä ekosysteemissä voidaan kuvata esimerkiksi suoraan lajiyksilöiden lukumääränä tai binäärisenä esiintyvyysindikaattorina. Runsausvasteen tyyppi on otettava huomioon tilastollista mallia sovittaessa. Yleistetyt lineaariset latenttimuuttujamallit tarjoavat joustavan tavan mallintaa moniulotteista runsautta olettamalla yhden tai useamman latentin muuttujan olemassaolon. Latentit muuttujat ovat luonteeltaan satunnaisia ja havaitsemattomia. Niiden voidaan tulkita kuvaavan esimerkiksi havaitsematta jääneitä ympäristötekijöitä. Latentit muuttujat ovat hyödyllisiä, sillä niiden avulla voidaan mallintaa eri lajien välistä korrelaatiorakennetta. Latenttimuuttujamallien sovittaminen ei kuitenkaan ole erityisen suoraviivaista latenttien muuttujien havaitsemattomuudesta johtuen.
Latenttimuuttujamallia vastaava marginaalinen uskottavuusfunktio sisältää integraalin, jolla ei yleisessä tapauksessa ole analyyttistä ratkaisua. Mallin sovituksessa joudutaan tämän vuoksi käyttämään jotakin approksimatiivista menetelmää. Eräs varteenotettava vaihtoehto on niin sanottu variaatiomenetelmä, joka esitellään tämän tutkielman alussa. Menetelmän etuna on sekä estimointitarkkuus että laskennallinen tehokkuus. Variaatiomenetelmän selvänä heikkoutena on sen huono yleistyvyys, sillä se ei suoraan sovellu käytettäväksi kaikkien tavanomaisten vastejakauma-linkkifunktio -parien yhteydessä. Tämän vuoksi tässä tutkielmassa esitetään nyt laajennettuksi variaatiomenetelmäksi nimetty menetelmä. Esitettyä laajennosta verrataan sekä tavanomaiseen variaatiomenetelmään että Laplace-approksimaatioon perustuvaan kilpailevaan menetelmään aineistopohjaisten simulointikokeiden avulla. Lisäksi esitellään laajennetun variaatiomenetelmän käyttöä suoaineistolle tehtävässä ordinaatiossa. Suoaineisto on peräisin Jyväskylän yliopiston Bio- ja ympäristötieteen laitokselta. Laajennettu variaatiomenetelmä implementoitiin ohjelmointikieliä R ja C++ käyttäen muutaman tyypillisimmän latenttumuuttujamallin tapauksessa.
...
Generalized Linear Latent Variable Models (GLLVM), a family of statistical models developed on recent years, has gained a lot of attraction in applications, in particular in the field of community ecology. Ecologists are often concerned with the relationships between two or more species across a multiple test sites. Such situations naturally lead to the collection of multivariate abundance data and call for appropriate statistical methods to analyze such data. GLLVMs offer a model-based approach for such analyses that is also flexible in the terms of the type of abundance response at question, i.e., species count, presence/absence, biomass, and such. As their namesake implies, GLLVMs generally assume the presence of some unobserved, latent variables as predictors. These latent variables are useful, for example in the modelling of the between-species correlation, but they also introduce some computational challenges into the model fitting.
In its general form, the GLLVM marginal likelihood involves an integral over the aforementioned latent variables. Under the standard assumptions this integral cannot be solved analytically, when dealing with other than normally distributed response variables. Thus some form of numerical approximation technique is often needed. This thesis starts by introducing a variational approximation (VA) approach for fitting GLLVMs, which has shown to be an attractive choice in terms of both the computational efficiency and estimation precision. From there we introduce a recently proposed method of extended variational approximation (EVA), which extends upon the standard VA approach by allowing a wider set of response distributions and link functions to be used in modelling. Then the comparative performance of these two approaches and a popular alternative, Laplace approximation (LA), is addressed in simulation studies. Additionally, an example study concerning the use of EVA in ordination of plant cover data is conducted. Lastly we discuss some ideas for further development regarding the EVA approach.
The VA and LA approaches to estimation of GLLVMs are readily available in the R package gllvm, which has been used in this thesis. An implementation of the EVA approach for a few types of common response distributions was developed as a part of this thesis in R and C++ using the package TMB.
...
Asiasanat
Metadata
Näytä kaikki kuvailutiedotKokoelmat
- Pro gradu -tutkielmat [29739]
Lisenssi
Samankaltainen aineisto
Näytetään aineistoja, joilla on samankaltainen nimeke tai asiasanat.
-
Variational Approximations for Generalized Linear Latent Variable Models
Hui, Francis K. C.; Warton, David I.; Ormerod, John T.; Haapaniemi, Viivi; Taskinen, Sara (American Statistical Association, 2017)Generalized linear latent variable models (GLLVMs) are a powerful class of models for understanding the relationships among multiple, correlated responses. Estimation, however, presents a major challenge, as the marginal ... -
Fast and universal estimation of latent variable models using extended variational approximations
Korhonen, Pekka; Hui, Francis K. C.; Niku, Jenni; Taskinen, Sara (Springer, 2023)Generalized linear latent variable models (GLLVMs) are a class of methods for analyzing multi-response data which has gained considerable popularity in recent years, e.g., in the analysis of multivariate abundance data in ... -
Efficient estimation of generalized linear latent variable models
Niku, Jenni; Brooks, Wesley; Herliansyah, Riki; Hui, Francis K. C.; Taskinen, Sara; Warton, David I. (Public Library of Science, 2019)Generalized linear latent variable models (GLLVM) are popular tools for modeling multivariate, correlated responses. Such data are often encountered, for instance, in ecological studies, where presence-absences, counts, ... -
Too Small to Succeed : Small Samples and the p-Value Problem
Aguirre-Urreta, Miguel I.; Rönkkö, Mikko; McIntosh, Cameron N. (ACM, 2024)Determining an appropriate sample size is a critical planning decision in quantitative empirical research. In recent years, there has been a growing concern that researchers have excessively focused on statistical significance ... -
On modeling multivariate abundance data with generalized linear latent variable models
Niku, Jenni (Jyväskylän yliopisto, 2020)The multivariate abundance data consist typically of multiple, correlated species encountered at a set of sites, together with records of additional covariates. When analysing such data, model-based approaches have been ...
Ellei toisin mainittu, julkisesti saatavilla olevia JYX-metatietoja (poislukien tiivistelmät) saa vapaasti uudelleenkäyttää CC0-lisenssillä.