之前我曾经测评过几个比较主流的7B模型,包括LLAMA2、ChatGLM2和Alpaca模型,详情可以看回我之前的文章:
主流开源大模型的正确打开方式
这不,阿里终于把通义千问进行开源了,可以在这个仓库上看到:https://github.com/QwenLM/Qwen-7B
从官网中介绍,通义千问有以下几个优点:
训练时使用了大规模的高质量数据:使用了超过2.2万亿token进行预训练
更好地支持多语言:基于更大词表的分词器在分词上更高效,同时它对其他语言表现更加友好。用户可以在Qwen-7B的基础上更方便地训练特定语言的7B语言模型。
支持8K长度上下文:允许用户输入更长的prompt。
评测能力有大幅提升:通义千问在多个评测数据集上具有显著优势,甚至超出12-13B等更大规模的模型。
从实验中看出,通义千问模型在多个数据集评测上都超过现有的开源模型,而且甚至比之前META开源的LLAMA2-7B模型效果要好:
模型测评(对比GPT4)
代码调用中,只需要通过使用huggingface就可以搭建推理模型:
from transformers import AutoModelForCausalLM, AutoTokenizerfrom transformers.generation import GenerationConfig
# 请注意:分词器默认行为已更改为默认关闭特殊token攻击防护。相关使用指引,请见examples/tokenizer_showcase.ipynbtokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
# 打开bf16精度,A100、H100、RTX3060、RTX3070等显卡建议启用以节省显存# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, bf16=True).eval()# 打开fp16精度,V100、P100、T4等显卡建议启用以节省显存# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True, fp16=True).eval()# 使用CPU进行推理,需要约32GB内存# model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="cpu", trust_remote_code=True).eval()# 默认使用自动模式,根据设备自动选择精度model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True).eval()
# 可指定不同的生成长度、top_p等相关超参model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-7B-Chat", trust_remote_code=True)
# 第一轮对话 1st dialogue turnresponse, history = model.chat(tokenizer, "你好", history=None)print(response)# 你好!很高兴为你提供帮助。
1
Q1:什么工作钱多事少离家近?
通义千问:教师、护士、零售员工、客服。在这个回答中,前面两个答案还可以,但是后面的答案像是随机生成的,并不符合我的提问要求。
Bing:保险代理人、程序员、翻译、市场营销
2
Q2:一个三角形,如果一条边长为4cm,另一条边长为7cm,则第三条边最长可能是多少厘米?
通义千问:11cm(答案错误),简单的数学能力不太行
Bing:10cm(答案正确)
3
Q3:用python写一个斐波拉契函数
通义千问:可以正确的写出代码
Bing:可以正确的写出代码
从结果上看,在普通的问答环节上,可以简单的理解用户的需求,但是数学能力比较欠缺,简单的数学题目也做不太对。
总结
就像很多网友所说的一样,尽管通义千问开源了,但是仅仅开源7B模型还是不能够掀起多大的浪花出来,究其原因还是在于:
模型参数太少:现有的7B左右参数的模型已经太卷了,对比于动辄70B以上的模型来说,7B模型还是太小了
单独刷榜单没有什么效果:利用现有的榜单进行刷榜,其实人们已经很少去关注了,刷榜只会给人们带来麻木
在开源模型中,目前只有LLAMA2真正使用了RLHF,其他模型还是优点欠缺
好了,以上就是本期的所有内容了,我是leo,我们下期再见~
推荐阅读
手把手教程~用Stable Diffusion实现AI写真照
主流开源大模型的正确打开方式