Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

大模型(LLMs)基础面试题 PDF 下载


分享到:
时间:2025-03-24 10:09来源:http://www.java1234.com 作者:转载  侵权举报
大模型(LLMs)基础面试题
失效链接处理
大模型(LLMs)基础面试题  PDF 下载  

 
 
相关截图:


 
主要内容:
 
 

4涌现能力是啥原因?

根据前人分析和论文总结,大致是2个猜想:·任务的评价指标不够平滑;

·复杂任务vs子任务,这个其实好理解,比如我们假设某个任务T有5个子任务Sub-T构成,每个sub-T随着模型增长,指标从40%提升到60%,但是最终任务的指标只从1.1%提升到了7%,也就是说宏观上看到了涌现现象,但是了任务效果其实是平滑增长的。

 

5为何现在的大模型大部分是Decoder only结构?

因为decoder-only结构模型在没有任何微调数据的情况下,zeroshot的表现能力最好。而encoder-decoder则需要在一定量的标注数据上做multitask-finetuning才能够激发最佳性能。

目前的Large LM的训练范式还是在大规模语料shang做自监督学习,很显然zero-hot性能更好的decoder-only架构才能更好的利用这些无标主的数据。

大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题,这可能会削弱模型的表达能力。就生成任务而言,引入双向注意力并无实质的好处。而Encoder-decoder模型架构之所以能够在某些场景下表现更好,大概是因为它多了一倍参数。所以在同等参数量、同等推理成本下,Decoder-only架构就是最优的选择了。

 



 

 
------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐