阿里云大模型课程

因为国外的AI相较于国内的AI逐渐性价比降低，所以我尝试看看国内的大模型。当我打开阿里云，正好看到了首页的学生优惠的大模型课程。根据我的经验，这种课程都会赠送一些资源。我觉得既然要用，还是系统性地学习下吧，毕竟我也有打算自己创作模型。

人工智能按照技术实现可以分成三类人工智能（Artificial Intelligence, AI)、机器学习（Machine Learning, ML)和深度学习。机器学习中可以分成监督学习、无监督学习、强化学习。监督学习和无监督学习都需要明确地告诉机器数据对象的类别。强化学习是一种利用奖励机制学习到如何更准确地判断的方式。

深度学习是机器学习的一个分支。主要是用神经网络模型（由多个隐藏层组成）。其灵感来源于神经生物学。它通过对大量数据的学习，自动提取出数据的高层次特征和模式，从而使先图像识别、语音识别、自然语言处理等任务。按架构的不同，神经网络可以分为：卷积神经网络（CNNs)、循环神经网络（RNNs)、Transformer 网络等等。

大模型的训练整体上分为三个阶段预训练、监督微调（SFT）以及对其偏好（如RLHF）

预训练阶段，大模型灰掌握语言的统计规律、事实性知识以及上下文关联能力。但它本质上只是学会了“预测下一个词”。例如如果你问它：“埃菲尔铁塔在哪个国家？”，它就可能回答：“东方明珠塔在哪个国家？”。还没学“什么该答”。

监督微调阶段，它会学习大量人类精心构造的“指令-回答”样本，能够根据指令给出针对性回答。但它可能会输出偏见、虚假信息、不安全言论等，因为它只学会了“怎么答”，还没学会“什么该答”。

对其偏好阶段，它会针对同一个问题生成多个不同的答案，由人类评估者根据有用性、安全性、礼貌性、事实准确性等标准进行比较和选择。模型通过学习这些“人类更喜欢哪个回答”的信号，逐渐调整自己的输出方式，使得回答不仅正确，而且更符合人类的价值观和交流习惯。实现对其的方式有很多，例如：基于人类反馈的强化学习（RLHE, Reinforcement Learning from Human Feedback) 和DPO（Direct Preference Optimization，直接根据人类偏好数据优化模型本身）。