动物育种中的大数据与机器学习

 Dinesh Thekkoot博士，Genesus公司

机器学习（ML）在过去几年一直是个热门话题。 ML是人工智能（AI）的一个子领域，致力于研究预测结果的算法。有意或无意地，我们在日常生活中严重依赖ML。

像Siri，Alexa和Google Now这样的虚拟个人助理，我们社交媒体中的个性化新闻源，我们在Facebook提要中看到的朋友建议，电子邮件垃圾邮件和恶意软件过滤，我们在GPS上看到的流量预测等等。我们定期使用的一些基于ML算法的服务/技术。

尽管ML在我们的日常生活中起着非常重要的作用，但该技术在动物育种/生产中的应用仍处于初期阶段。自动化饲喂和称重系统，数字成像，大规模基因分型等现代技术的最新发展使农民，育种者和相关行业能够在动物一级持续监测和收集大量数据（大数据）。合理的费用。

此大数据中的行数和列数通常很大，以至于很难使用常规计算机程序将其可视化。此外，在大多数情况下，此数据并不总是“干净”，因为它可能包含缺失值，异常值和不需要的数据点。

另一个问题是遗传评估中每只动物的数据量。大多数当前的数据分析方法假设每只动物的数据片数不大。例如，假设我们有500母猪，每头母猪将有很少的产仔记录和很少的生长记录，即我们有每头母猪500或10数据点的15母猪。然而，更新的数据收集技术，在每个500母猪我们可能有超过50,000基因型信息，数千个哺乳期采食记录和数千个分娩室环境测量，如温度和湿度记录每5分钟。因此，相同的500母猪每个都会有数千（甚至数百万）个数据。已经开发了许多统计方法来解决这个问题，但是它们需要非常大量的计算机资源。 ML已被证明是解决所有这些问题的有效方法。

从数据中学习是机器学习的核心原则，它旨在从大量数据分析模型中进行选择，以便最准确地预测结果。这部分称为培训过程，有两种类型的培训：

监督培训 （机器从现有的例子中学习，如基因型和相应的表型）和
无人监督的训练 （不需要先前的例子，例如我们只有基因型的情况）。

机器学习在动物科学中的一些应用：

基因组预测： ML的最早尝试之一是在基因组启用的预测中尝试过的。初步结果表明，当基础遗传结构复杂时（当性状由显性和/或上位性控制时），ML方法比传统方法表现更好（Li等（2018）Front.Genet.9：237）。
全基因组关联研究（GWAS）： 出版物已经表明，ML方法可用于进行GWAS。而且，已经显示ML方法在鉴定具有与候选基因的直接连接的SNP子集方面更有效（Li等人（2018）Front.Genet.9：237）。
基因型插补： 在进行基因分型时，并非所有标记都会因质量问题而进行基因分型，我们必须使用称为插补的过程来预测缺失的标记基因型。研究表明，ML方法具有更高的精确度来输入这些缺失的基因型（Morota等（2018）J.Anim.Sci.96：1540-1550）。
表型质量检查： 已经显示ML模型成功地识别数据中的异常值，并且可以在遗传评估之前应用于过滤和编辑数据（Morota等人（2018）J。Anim.Sci.96：1540-1550）。
图像分析： ML方法可以用于从相机图像预测体重而不是使用体重秤，这是费力的，耗时的并且对动物造成压力。而且，这些方法可用于实时地从在线相机图像预测胴体组成。

在Genesus，我们从个人采食机器，屠体和猪肉质量计划中生成大量数据，这些计划的历史可以追溯到20年以上，并且每周对许多候选人进行基因分型。这些大量数据可归类于大数据类别，并且是我们常规遗传评估程序的一个组成部分，以及我们的常规生长和生殖表型。

目前，我们正在研究用于更有效地分析这些数据的预测ML方法。所有这些步骤将有助于提高遗传改良率，并最终使Genesus客户受益。

印刷通讯🖨

Facebook

Twitter

分类：重要新闻, 全球科技

这篇文章是由Genesus写的

装载

动物育种中的大数据与机器学习

机器学习在动物科学中的一些应用：