组会学习记录

大二小白科研学习的亿天

2025/4/20

zps学长

ppt套了学校的模板

讲了transformer

patch:在训练深度学习模型时,通常不会将整个数据集一次性输入到模型中进行处理,而是将数据集分成若干个小的子集,这些子集就被称为 “batch”(批次)。例如,有一个包含 1000 张图片的数据集,若将其分成每个批次包含 100 张图片的小批次,那么就可以得到 10 个 “batch”。

backbound:“backbone” 指的是模型的核心主干部分,主要用于特征提取

  • 特征提取:backbone 通常由多个卷积层、池化层和全连接层等组成,能够对输入数据进行逐步的特征提取和抽象。例如,在处理图像数据时,它可以从原始图像中提取出边缘、纹理、颜色等低级特征,并逐渐组合成更高级、更抽象的语义特征,如物体的部分、整体结构以及类别等信息。像 VGGNet 中的连续卷积层,通过不断地卷积操作来提取图像的不同层次特征。
  • 模型基础:它是构建整个深度学习模型的基础架构。许多复杂的深度学习模型都是在特定的 backbone 基础上进行修改、扩展或添加其他模块而形成的。例如,在目标检测模型 Faster R-CNN 中,使用了 ResNet 作为 backbone 来提取图像特征,然后在其基础上添加了区域提议网络(RPN)和检测头来实现目标检测功能。
  • 可迁移性:预训练好的 backbone 具有很强的可迁移性。由于在大规模数据集上进行了训练,学习到了通用的特征表示,因此可以将其应用于不同的但相关的任务中。比如,在图像分类任务中预训练好的 ResNet 模型,可以通过微调的方式应用于图像检索、目标跟踪等其他视觉任务中,往往能够在新任务上取得较好的性能,减少了在新任务上的训练数据量和训练时间。
  • 决定模型性能:backbone 的性能很大程度上影响着整个模型的性能。一个好的 backbone 能够提取到更有代表性、更具区分度的特征,从而为后续的任务特定模块提供更好的基础,有助于提高模型的准确性、泛化能力等性能指标。例如,ResNet 引入残差连接,解决了深层网络训练中的梯度消失和退化问题,使得训练极深的网络成为可能,从而提升了模型对复杂图像特征的提取能力,在各种图像任务中取得了显著的性能提升。

yzh学长

AI4Science 即 “AI for Science”,是指将人工智能技术应用于科学研究领域,以加速科学发现和解决科学问题。

AI4Science 融合了机器学习、深度学习等人工智能方法与自然科学各个领域的知识和数据,旨在利用人工智能的强大能力,如数据挖掘、模型构建、预测分析等,来处理科学研究中的复杂问题。例如,在分子和材料计算方面开发快速准确的量子化学模拟工具,通过机器学习力场模型研究材料动力学和特性;在生命科学领域进行蛋白质 - 药物复合物结构和相互作用预测、生物分子的有效动力学模拟和蛋白质功能状态预测等。

它代表了科学发现的一个新方向,有望成为继经验观察、理论模型、数值计算和数据密集型科学发现之后的 “第五范式”。AI4Science 不仅促进了 AI 与各种科学学科的协同,还搭建了不同科学子领域间的桥梁,有助于解决超越单一学科的大规模挑战。

先验知识(比如ai4science领域):;

  • 领域科学理论:如物理学中的牛顿运动定律、麦克斯韦电动力学方程,化学中的量子化学理论,生物学中的进化论等。这些理论经过长期的科学研究和实践验证,是对自然现象的高度概括和总结,为 AI 模型提供了基本的原理和规律依据。例如,在 AI 模拟分子动力学时,量子化学理论中的薛定谔方程可作为先验知识,帮助模型理解分子和物质的行为。
  • 专家经验:领域专家在长期的研究和实践中积累了丰富的经验,这些经验可以转化为 AI 模型的先验知识。比如,材料科学家根据自己的实验经验,知道某些材料的特定属性与结构之间的关系,将这些经验融入 AI 模型,有助于模型更准确地预测材料的性能。
  • 历史数据:以往的科学实验、观测数据中蕴含着大量的信息。通过对这些数据的分析和总结,可以提取出有价值的先验知识。例如,在气候科学中,长期的气象观测数据可以帮助 AI 模型了解气候变化的规律和趋势。

先验知识融入模型比较难,主要是因为存在知识表示、与模型架构融合、平衡调整及验证评估方面的挑战:

  • 知识表示与转化难题
    • 复杂知识形式化:先验知识形式多样,包括科学理论、专家经验、行业规则等。很多知识难以用精确的数学或逻辑语言表示。例如,医学领域中医生对疾病的综合判断经验,涉及模糊的症状描述、患者个体差异等,将这类知识转化为模型可理解的数值或符号形式非常困难。
    • 知识粒度把握:确定先验知识的合适表示粒度是个难题。粒度太粗,可能丢失关键细节;粒度太细,又会使知识表示过于复杂,增加模型负担。以地理信息系统中对地形地貌的知识表示为例,如果粒度太粗,可能无法准确体现地形对水流、气候等的影响;而粒度太细,数据量过大,会使模型训练和推理效率低下。
  • 模型架构与融合方式的挑战
    • 架构适配问题:不同的 AI 模型架构具有不同的特点和适用场景,将先验知识融入时需要考虑其与模型架构的兼容性。例如,循环神经网络(RNN)适用于处理序列数据,而将一些关于空间结构的先验知识融入 RNN 就比较困难,因为 RNN 的结构不太适合直接处理空间信息。
    • 融合方式选择:先验知识融入模型的方式有多种,如修改模型结构、调整损失函数、作为额外输入等,选择合适的融合方式并非易事。不同的融合方式对模型性能的影响差异较大,且缺乏通用的选择准则。例如,在图像识别模型中,将图像的一些先验知识(如物体的几何约束)通过修改模型结构来融入,可能会使模型变得复杂,难以训练;而通过调整损失函数来融入,又可能面临损失函数设计不合理,导致模型无法有效学习的问题。
  • 平衡与调整的复杂性
    • 知识与数据平衡:融入先验知识时,需要在知识和已有数据之间找到平衡。如果先验知识的权重过高,可能会使模型过于依赖先验知识,忽略数据中的实际信息,导致模型在新数据上的泛化能力下降;反之,如果先验知识的权重过低,又无法充分发挥先验知识的作用。例如,在预测股票价格时,先验的经济理论知识和历史股票数据都很重要,若过度依赖先验知识,可能无法准确捕捉市场的短期波动;而过度依赖历史数据,又可能忽略宏观经济环境等因素对股票价格的影响。
    • 动态调整困难:在模型训练和应用过程中,数据和问题场景可能会发生变化,这就需要动态调整先验知识的融入方式和权重。然而,实现动态调整非常困难,需要设计复杂的机制来监测数据和模型的变化,并相应地调整先验知识的作用。例如,在疾病诊断模型中,随着医学研究的进展和新的疾病特征出现,先验知识需要不断更新和调整,以保证模型的准确性和有效性,但这涉及到对知识的重新表示、融合方式的改变以及权重的重新分配等一系列复杂问题。
  • 验证与评估的不确定性
    • 评估指标局限:现有的模型评估指标如准确率、召回率等,可能无法全面准确地评估先验知识融入后的模型性能。因为这些指标主要关注模型对已知数据的拟合和预测能力,而对于先验知识是否正确融入、是否提高了模型的可解释性和泛化能力等方面的评估不够充分。例如,在一个基于 AI 的法律判决预测模型中,融入法律条文和法律原则等先验知识后,虽然模型的预测准确率可能有所提高,但对于模型是否真正理解了法律知识并基于此进行合理的判决预测,仅靠传统的评估指标难以判断。
    • 因果关系难以确定:融入先验知识后模型性能的提升,很难直接归因于先验知识的正确融入。可能存在其他因素影响模型性能,如数据的变化、模型参数的随机初始化等。要确定先验知识与模型性能提升之间的因果关系,需要进行严格的实验设计和分析,这在实际应用中往往具有很大的挑战性。例如,在一个基于深度学习的药物研发模型中,融入药物化学的先验知识后,模型发现了新的潜在药物分子,但很难确定这是由于先验知识的融入还是模型本身的学习能力导致的。

cey学长

强化学习基础概念

Environment,agent,action,observation,reward,return,episode

Environment:环境,智能体交互的外部系统

agent:智能体,做决策的主体

action:智能体可执行的动作集合

observation:智能体从环境中接收到的状态信息

reward:环境给予智能体的即时反馈信号

return:累积奖励,通常是折扣奖励和$R_t=\sum{y^i\times r_{t+i}}$

episode:一次完整的交互序列,从初始状态到终止状态

强化学习的核心就是智能体与环境交互,并从中学习最优策略

agent通过观察环境状态,基于当前策略选择动作,环境接受动作后反馈新的状态和奖励

智能体的目标是最大化累积奖励,找到最优策略$\pi^*$

TD Learning时序差分学习

Q-learning

可以在ppt中插入滚动条代码块演示内容