# GPT 是什么?直观解释 Transformer

来源:【官方双语】GPT 是什么?直观解释 Transformer | 深度学习第 5 章_哔哩哔哩_bilibili

要点:

  • 两个向量的点积,衡量两个向量的方向性。越正,两个向量在高维空间的方向越近越对齐。
  • 词嵌入模型,将单词嵌入到高维空间的一个向量中,以编码、表示这个单词的意义等信息。在最初处理时,嵌入模型编码得到的单词向量没有上下文信息。
  • 众所周知,对于一个单词,需要结合上下文进行理解其含义。因此在一段文字中的单词,其含义信息与上下文有关。
  • 在词向量经过注意力机制处理时,注意力矩阵会帮助这个单词学习到上下文的语义信息,这是比单个词更丰富的信息。因此经过注意力机制层后,词向量有了上下文信息。
  • 注意力机制中的矩阵帮助词向量学习到上下文信息,但是其能力也有限,即上下文长度。GPT-3 的上下文长度为 2048,所以流入注意力机制层的数据有 2048 列。
  • 在 GPT-3 中有嵌入矩阵(Embedding Matrix)和解嵌入矩阵(UnEmbedding Matrix)。嵌入矩阵的每一列是一个 token,每个 token 的行都是其特征,这么看来其列是一个词汇库。解嵌入矩阵与此相反,每一行是一个 token,每一个 token 的列都是许多特征。嵌入矩阵和解嵌入矩阵在最初是随机数值的,随训练而优化参数,以实现将一个单词的正确含义信息嵌入到高维空间 、从高维空间中将含义信息表达为单词。
  • GPT-3 的 2048 列数据经过注意力不断处理,在最终层输出的是要预测的那个位置的前 2048 个单词的矩阵,然后与解嵌入矩阵相乘得到 2048 个可能的单词的 logits,经过 softmax 转换为概率分布,然后挑选单词输出。
  • softmax 如果引入一个温度值 T,可以让大模型的输出更加有趣味性,公式如下。T 越大,logits 里值越低的单词的概率越大,使得其被输出的可能性更大。

带温度的 softmax 的数学形式:

exTn=0N1exT\frac{\frac{e^x}{T}}{\sum^{N-1}_{n=0}e^{\frac{x}{T}}}

  • 有时大模型为了提高语言的趣味性,并非挑选概率最大的一个单词输出,而是根据 topk 或其他采样方法输出单词。

# 高强度使用 claude code/code agent 的三个月的感想和思考

来源:https://zhuanlan.zhihu.com/p/1995027269765313715

要点:

  • 首先,基于一个想法,用尽量详细的语言描述这个想法的方方面面;然后,让 chatgpt 或 claude 输出一份正式的需求文档,人类对需求文档做手动修改,或者 prompt AI 助手再修改和细化,满意之后;再让 AI 助手输出一份详实的实现方案、架构设计和接口定义,在这个过程中,仍然由人类反馈进行修改。最后,提前确定需要的权限,让 cc 开始自动化静默实现(往往还是需要定期监控以确保一切正常)。
  • 当你开始长期维护一个项目,其涉及到的技术栈丰富,部件众多且需要深入的交互逻辑时,你会逐渐发现放手 Agent 开发带来的问题:你的项目几乎很难由你维护了!你会发现,由于你没有从开头就介入代码的开发,你完全不知道该从哪里开始 debug 和接手。在这之后,你只能不得不继续依赖 agent:1. 求助 agent 帮你总结项目结构; 2. 继续反馈你发现的 bug,让 agent 帮你修复。
更新于 阅读次数

请我喝[茶]~( ̄▽ ̄)~*

RunfarAI 微信支付

微信支付

RunfarAI alipay

alipay

RunfarAI paypal

paypal