如果想要了解“当前火热的大模型到底能做什么”可以直接跳转“大模型的能力”章节。
什么是大模型
钢铁侠的贾维斯大家应该都有所耳闻,“大模型”其实就相当于一个简化版的“贾维斯”。或许,现在的他还不够科幻、不够全能,但无疑“贾维斯”的一些功能,“大模型”已经可以实现了。
名词解释
大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。以GPT-4为例,参数约1.8万亿个参数,训练的数据集约13万亿个参数,使用了约25000个A100 GPU。
训练
两点确定一条线,三个点确定一个面,类似的,N个数据,可以确定一个很复杂的函数。这个确定函数的过程就是训练,训练出来的函数就是“大模型”。
Token
由于中文词语不定长的特性,大模型的训练是基于“token”进行的。“token”通常指的是文本中的一个词语或者一个标点符号,它是文本分析中的一个基本单位。比如:“今天天气真好。” 在进行分词(tokenization)之后,这句话会被分成以下tokens:[“今天”,“天气”,“真”,“好”,“。”]。
上下文
类似现实中聊天的语境、项目背景,如果缺少这部分信息,我们的理解、沟通就会很容易出现偏差。
微调
大模型是基于大量数据进行训练的通用模型,能处理很多事项,就像是一个师范专业毕业的老师,已经具备各科教学的通用能力。但如果我们希望这位老师能教授小学数学,就需要她针对小学数学专门备课,这个备课过程就是“微调”。
微调不是改变模型的核心智慧,而是调整他应用知识的方式,让他在小学数学这个特定领域表现得更加出色。
Agent(智能体)
如果大模型相当于人体的大脑,会理解、会推理,那agent就像人体的手、脚等器官,可以实际地去执行某些动作,或者协同完成某些复杂的事项。
大模型为何成为新晋网红
大模型其实并不能算是一个完全新颖的东西,这一概念最早可以追溯到1950年“人工智能”的提出,后续经历了“统计机器学习”-“神经网络”-“深度学习”-“大模型”多个阶段的发展,才形成目前我们所认识的“大模型”。在这个发展过程中,其实也已经诞生了很多落地的应用,比如:机器翻译、OCR识别等。
-
技术进步:人工智能方向长期的积累发展;计算机行业算力的整体提升,尤其是GPU的升级及大规模集群的出现。
-
社会变革:社会各行业数字化转型的沉淀;各类智慧应用的推广。
-
商业潜力:区块链、数字孪生等概念的增长已经到达了一定的峰值,需要一个新的热点引领风潮。
-
资本推动:风险投资和产业资本的大量涌入,进一步推动风口的形成。
-
认知影响:公众和媒体对于大模型所展示的“未来感”充满好奇和讨论,再一次扩大了影响面。
行业新动向
技术
-
谷歌Gemini:可同时识别文本、图像、音频、视频和代码五种类型信息;马斯克Grok:拥有3140 亿参数的模型开源。
-
阿里通义Qwen1.5-110B:1100亿参数的模型开源。
-
OpenAI文生视频模型Sora:能够根据文本描述,生成长达60秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。
-
生数科技联合清华大学发布的Vidu:国内对标Sora,是中国首个长时长、高一致性、高动态性的视频大模型,能够一键生成长达16秒、分辨率高达1080P的高清视频内容。
应用
-
“华为云盘古气象大模型”是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上。
-
“天工SkyMusic”是昆仑万维推出的AI音乐生成大模型,具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风格适应及复杂歌唱技巧学习等五大特点。
-
“阿里巴巴EMO”能够捕捉到人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。比如:“高启强”普法、蒙娜丽莎唱歌、马斯克跳科目三。
生态
-
百度千帆、阿里百炼、字节扣子等社区平台发布
-
通过智能体(Agent)扩展大模型能力、通过应用商店(Store)汇聚创意推动生态。
-
通过可视化工作流简化大模型应用发布过程。
政策
-
《国家新一代人工智能标准体系建设指南》
-
《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》
-
《关于支持建设新一代人工智能示范应用场景的通知》
-
《北京市促进通用人工智能创新发展的若干措施》
-
《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》
资本
-
艾瑞咨询预测,2023年中国AIGC产业规模约为143亿元,并预计在2028年将达到7202亿元,到2030年有望突破万亿元。
-
2023年,人工智能领域新诞生了10家独角兽企业,其中AIGC及大模型相关企业占了近一半,包括智谱AI、百川智能、零一万物、Minimax 名之梦、月之暗面等。
-
OpenAI完成了103亿美元的B+轮融资,百川智能完成了3亿美元的A轮融资,月之暗面(Moonshot AI)完成了超过10亿美元的B轮融资。
大模型的能力
1. 理解(多模态)
-
关注事项捕捉:从文本或对话中捕捉关键信息,如会议要点、新闻关键事件等。 -
文章摘要:自动提取文章的核心内容,生成简洁的摘要。 -
内容校对:可以检查文本中的语法、拼写和语义错误,提高文本质量。 -
数据分析:从大量数据中提取有用信息,进行统计分析或趋势预测。 -
图像识别:识别图像中的物体、场景或人脸,并进行分类或标注。
2. 生成(多模态)
-
写总结(日志、周报等):根据输入的信息或数据,自动生成总结性的文本。 -
编制文档:生成各种类型的文档,如报告、说明书、论文等。 -
编写合同:根据用户的需求和法律条款,自动生成合同文本。 -
图片生成:根据文本描述或关键词,生成符合要求的图像。 -
视频生成:结合文本、图像和音频,生成完整的视频内容。
3. 微调
-
行业细分服务:针对特定行业的需求,对大模型进行微调,提供定制化的服务。 -
企业内部知识:结合企业的内部数据和知识库,对大模型进行微调,以更好地服务于企业内部的业务流程。 -
最新信息补充:不断更新和补充最新的信息和数据,使大模型保持与时俱进的能力。
4. 知识面广及创新
-
头脑风暴:通过提供多种可能的解决方案和想法,帮助人们进行头脑风暴。 -
创意灵感:激发新的创意和灵感,为创作、设计等领域提供新的思路。 -
起名:根据特定的主题、风格或需求,生成独特且富有意义的名字。
“抛砖引玉”
-
文章摘要
针对公众号文章形成摘要。
-
发布新闻
根据事件编写新闻稿。
-
生成图片