为什么生物学的生成AI进展缓慢-399718奇闻趣事网

BALI @ 2024.08.15 , 07:01

为什么生物学的生成AI进展缓慢

生物领域的生成性AI因数据获取和验证成本高而进展缓慢。
生成性AI在文本、图像、视频和声音生成方面的进展迅速。只需使用OpenAI的ChatGPT，便能深信不疑。相比之下，生物领域的生成性机器学习进展缓慢，尤其是与人类创造的数据(如文本和图像)处理速度相比。这主要是@于数据验证成本高昂。
与其他生成性机器学习领域不同，生物领域在获取和验证新数据方面面临重大挑战。这种差异主要体现在两个方面。
首先，自然语言处理(NLP)的原始材料是人类创造的文本，数量丰富。我们可以通过网络爬虫获取这些数据。而生物序列数据的收集不仅需要大量的工作来收集和处理物理DNA，还需进行测序。这个过程需要开发新的测序和收集技术，而每项技术都带来了不同的偏差和复杂性。
更重要的是，生物领域没有相当于教科书的高质量、指导性文本可用。最接近的可能是UniProt等数据集，这些数据集是经过精心策划和去重的蛋白质序列数据集，但只有一个。
其次，两个领域的验证过程差异显著。在NLP中，评估计算机生成的文本相对简单；人类可以迅速判断文本是否连贯和有意义。然而，在生物学中，验证DNA或蛋白质字母序列是否“合理”要复杂得多。即使是计算预测一个序列是否会正确折叠并执行所需功能，也需要大量计算，而这只是另一种预测。要真正测试生物序列的“意义”，必须在设计出编码该序列的DNA后，将其插入细胞，在合适的环境中培养，然后提取和测试该分子，使用生化检测，这一过程耗时、成本高且往往需要专门设备。(这可能是博客中最大的轻描淡写。)
本质上，虽然NLP允许几乎立即评估文本输出，因为人类机器非常擅长识别文本或图像的连贯性，但生物机器学习则需要数周的昂贵实验室工作来验证每个输出。
机器学习的进展依赖于数据集和评估，而不仅仅是算法。因此，生物数据的稀缺性和高验证成本使得生物学中的机器学习进展比NLP要慢，后者的数据生成和评估相对便宜。
因此，生物学中的机器学习进展将比NLP更慢。数据的可用性和成本，以及验证的复杂性，显著限制了生物领域的进展，而这些限制在其他生成性机器学习领域并不存在。
本文译自 Alex Carlin，@ BALI 翻译。

本文版权归原作者，本站只做分享普及使用。若侵犯了你的权益，请提供版权有效证明，核实后下架删除。 (2)

未经允许不得转载：399718奇闻趣事网 » 为什么生物学的生成AI进展缓慢

为什么生物学的生成AI进展缓慢

相关推荐

评论点击这里取消回复。

近期文章

热门