Neue Maschinelle Lernverfahren zur akkurateren Pflanzenzüchtung durch Integration heterogener externer Faktoren

Derzeit steht die Agrarindustrie unter großem Druck, schnell neue Pflanzensorten für das sich ändernde Klima zu entwickeln und weniger Ressourcen zu verbrauchen. Ziel ist es, die Erträge zu steigern und nachhaltiger zu werden. Um die Züchtungsprogramme zu beschleunigen, setzen Pflanzenzüchter genomische Selektionsmethoden ein, um den erwarteten Wert eines Merkmals, z. B. des Ertrags, aus den genetischen Profilen der Pflanzen vorherzusagen, bevor die Pflanzen auf dem Feld getestet werden.

Die Ausprägung von Pflanzenmerkmalen wird von zwei Hauptfaktoren beeinflusst: ihren genetischen, d. h. vererbten Merkmalen und der Umwelt, in der sie wachsen. Ziel des Verbundprojekts "CropML" ist es, Modelle des maschinellen Lernens (ML) zu entwickeln, die beides berücksichtigen, d. h. neben der Genetik auch Umwelteinflüsse. Dazu werden Daten, welche die Umwelt beschreiben, integriert, z. B. Messwerte des Wetters, der Bodenbeschaffenheit oder agronomische Faktoren wie der Düngereinsatz.

Im Rahmen des Projekts werden geeignete Datenquellen für Umweltbeschreibungen identifiziert und so aufbereitet, dass sie mit genetischen Daten für ML-Modelle kompatibel sind. Es werden neue ML-Methoden entwickelt, welche die sehr heterogenen Daten aus genetischen Profilen und Umweltfaktoren integrieren und den Einfluss beider Quellen auf das vorherzusagende Merkmal modellieren können, insbesondere ihre Interaktion. Die entwickelten Methoden werden weitgehend automatisiert sein, um den Züchtern schnelle Informationen für zeitkritische Entscheidungen zu liefern.

Dies wird eine präzisere Auswahl vielversprechender Sorten ermöglichen. Sie werden auch dazu beitragen, geeignete Sorten für neue Regionen und veränderte Klimabedingungen zu identifizieren. Durch den Einsatz der entwickelten Methoden werden die Züchter einen wirtschaftlichen und ökologischen Vorteil erlangen, indem sie mit weniger Ressourcen bessere und robustere Sorten züchten.

Publikationen

Efficient Permutation-based Genome-wide Association Studies for Normal and Skewed Phenotypic Distributions

John, M.; Ankenbrand, M.; Artmann, C.; Freudenthal, J.; Korte, A.; Grimm, D. (2022)

Bioinformatics 2022.
DOI: 10.1093/bioinformatics/btac455


Open Access
 

Motivation: Genome-wide Association Studies (GWAS) are an integral tool for studying the architecture ofcomplex genotype and phenotype relationships. Linear Mixed Models (LMMs) are commonly used to detectassociations between genetic markers and a trait of interest, while at the same time allowing to account for population structure and cryptic relatedness. Assumptions of LMMs include a normal distribution of theresiduals and that the genetic markers are independent and identically distributed - both assumptions are often violated in real data. Permutation-based methods can help to overcome some of these limitations and provide more realistic thresholds for the discovery of true associations. Still, in practice they are rarely implemented due to the high computational complexity.

Results: We propose permGWAS, an efficient linear mixed model reformulation based on 4D-tensors that can provide permutation-based significance thresholds. We show that our method outperforms current state-of-the-art LMMs with respect to runtime and that permutation-based thresholds have a lower false discovery rates for skewed phenotypes compared to the commonly used Bonferroni threshold. Furthermore, using permGWAS we re-analyzed more than 500 Arabidopsis thaliana phenotypes with 100 permutations each in less than eight days on a single GPU. Our re-analyses suggest that applying a permutation-based threshold can improve and refine the interpretation of GWAS results.

Availability: permGWAS is open-source and publicly available on GitHub for download: https://github.com/grimmlab/permGWAS

mehr

A comparison of classical and machine learning-based phenotype prediction methods on simulated data and three plant species

John, M.; Haselbeck, F.; Dass, R.; Malisi, C.; Dreischer, C.; Schultheiss, S....

Frontiers in Plant Science 2022.
DOI: 10.3389/fpls.2022.932512


Open Access
 

Genomic selection is an integral tool for breeders to accurately select plants directly from genotype data leading to faster and more resource-efficient breeding programs. Several prediction methods have been established in the last few years. These range from classical linear mixed models to complex non-linear machine learning approaches, such as Support Vector Regression, and modern deep learning-based architectures. Many of these methods have been extensively evaluated on different crop species with varying outcomes. In this work, our aim is to systematically compare twelve different phenotype prediction models, including basic genomic selection methods to more advanced deep learning-based techniques. More importantly, we assess the performance of these models on simulated phenotype data as well as on real-world data from Arabidopsis thaliana and two breeding datasets from soy and corn. The synthetic phenotypic data allows us to analyze all prediction models and especially the selected markers under controlled and predefined settings. We show that Bayes B and linear regression models with sparsity constraints perform best under different simulation settings with respect to explained variance. Further, we can confirm results from other studies that there is no superiority of more complex neural network-based architectures for phenotype prediction compared to well established methods. However, on real-world data, for which several prediction models yield comparable results with slight advantages for Elastic Net, this picture is less clear, suggesting that there is a lot of room for future research.

mehr


Verbundprojektleitung

Dr. Sebastian J. Schultheiss
computomics GmbH

Teilprojektleitung

Projektbearbeitung


Projektdauer

01.10.2021 - 30.09.2024

Projektpartner

Projektträger

Projektförderung