Home

Awesome

Awesome-AIGC

Anurag's GitHub stats

自2022年11月份OpenAI公布ChatGPT以来,ChatGPT在五天之内注册用户数就突破了百万

ChatGPT

由此拉开了AIGC大模型的序幕,也有人称为是AI2.0时代,2023年3月14日又发布了GPT4,性能进一步得到提升,关于ChatGPT和GPT4为代码的文本生成以及Codex的代码生成等博客和论文层出不穷,这里对一些重点资料进行了整理归类,持续更新中......

技术交流

欢迎加入AIGC技术交流群,与AI领域专家和各行各业的AIGC爱好者一起交流技术理论与行业信息!不管你是学术界还是工业界实践者或爱好者,都欢迎加入群体!

交流群二维码拉你入群(备注AIGC-github)
ArronArron

AIGC视频会议&访谈

智源社区

【论文分享】【AugGPT:利用ChatGPT进行文本数据增强 】[link]

【论文分享】【ChatGPT的鲁棒性探究——对抗性和分布外泛化的视角 】[link]

【论文分享】【传统检索模型和大语言模型在信息搜索中的应用和对比 】[link],[paper],[code],[blog]

访谈&视频

【访谈】【OpenAI 的核心研发人员 Jack Rae 在参加 Stanford MLSys Seminar 的访谈时进行了一个名为 Compression for AGI的主题分享 】[访谈记录]

【访谈】【万字长文:想训大模型?这里有一份避坑指南】[访谈记录]

【访谈】【微软Bing版ChatGPT表明想做人类,并且对纽约时报专栏作家表达爱意】[访谈记录]

【访谈】【Midjourney创始人David Holz关于生成式AI的访谈】[访谈记录]

【访谈】【OpenAI创始人:GPT-4的研究起源和构建心法】[访谈记录]

【访谈】【ABC News 专访OpenAI首席执行官萨姆·奥尔特曼:AI风险和重塑社会的问题】[[访谈记录](OpenAI CEO Sam Altman says AI will reshape society, acknowledges risks: 'A little bit scared of this )]

【访谈】【OpenAI联合创始人Ilya Sutskever等专访:开源人工智能是不明智的】[访谈记录]

【访谈】【OpenAI董事长、CTO Greg Brockman专访 :GPT-4 并不完美,不过人无完人】[访谈记录]

【访谈】【图灵奖获得者 Yoshua Bengio 认为 ChatGPT 是一个“警钟”】[访谈记录]

【访谈】【《麻省理工科技评论》对 ChatGPT 幕后团队,进行了一次深入的独家专访】[访谈记录]

【访谈】【口述历史,探析ChatGPT的创造历程,ChatGPT内部故事】[访谈记录]

【访谈】【对话ChatGPT之父!AI会改变什么?不会改变什么?】[访谈记录]

【访谈】【对话OpenAI研究科学家:他们是如何让GPT4更像人的?】[访谈记录]

【视频】【邱锡鹏教授介绍以ChatGPT为核心的大规模语言模型的相关知识及未来的发展方向 】[B站]

LLM体验效果&专业评估

【LLM效果对比】【360智脑_VS_讯飞星火】[blog]

【LLM效果对比】【阿里通义千问_VS_讯飞星火】[blog]

【LLM效果对比】【Bard_VS_Baize-7B_VS_文心一言】[blog]

【LLM效果对比】【Bard_VS_Bing_VS_ChatGPT】[blog]

【LLM效果对比】【Bard_VS_文心一言】[blog]

【LLM效果对比】【ChatGPT_VS_GPT4】[blog]

【LLM效果对比】【OpenAssistant_VS_百度文心一言】[blog]

【LLM效果对比】【文心一言新闻发布会内容复现】[blog]

【LLM效果对比】【文心一言_VS_ChatGLM-6B】[blog]

【LLM效果对比】【文心一言 VS GPT-4:20道问答PK】[blog]

【LLM效果对比】【文心一言 vs GPT-4实测!】[blog]

【LLM效果对比】【讯飞星火_VS_文心一言】[blog]

【ChatGPT专业评估】【一文看遍各行业对ChatGPT的专业评估】[blog]

【ChatGPT专业评估】【ChatGPT关于推理、幻觉和交互的多任务、多语言、多通道评估 】[paper]

【ChatGPT专业评估】【如何评价 OpenAI 的超级对话模型 ChatGPT ?】[paper]

【ChatGPT专业评估】【用ChatGPT参加计算机科学考试】[paper]

【LLM知识评估】【C-Eval:构造中文大模型的知识评估基准】[主页],[paper],[code],[blog]

【MLLM幻觉评估】【多模态大模型的幻觉问题与评估】[blog],[paper],[code]

【各大大模型评测】【粗看大模型ChatGLM、MOSS、Bloomz在中文垂域评测中的性能表现:医学、法律、心理学、教育等四大类试题下的测试报告介绍】[paper],[code],[blog]

【国内大模型评测】【评测国内各种对标 ChatGPT 的大语言模型】[blog],[code]

【大模型排行榜】【OpenLLM大模型排行榜】[主页],[blog],[最新进展blog]

【大模型排行榜】【斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一】[blog],[主页],[code]

LLM垂直领域大模型

法律

【再看基于LLaMA的最新微调模型变体:CaMA、ExpertLLaMA以及第四个中文法律微调模型LexiLaw】[blog]

【基于中文法律知识的大语言模型——LaWGPT】[blog]

医疗

【AD-AutoGPT:用于阿尔茨海默病信息流行病学的自主GPT】[paper]

【MedQA-ChatGLM - 基于真实医疗对话数据在ChatGLM上进行微调】[code],[主页]

【谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类】[blog],[paper]

【PULSE:中文医疗大语言模型】[code]

金融

【FinGPT:一个「专用于金融领域」的开源大语言模型(LLM)框架,源码公开!】[blog],[paper],[code]

环境

【清华&中国气象局大模型登Nature:预报时效首次达3小时】[blog],[paper]

网络安全

【专用于网络攻击的模型FraudGPT】[blog]

交通

【北交大开源交通大模型TransGPT·致远,可免费商用】[blog],[code]

其他

【南洋理工开源海外中文大语言模型Panda LLM | 探索数据因素和训练策略如何影响大模型性能表现】[paper],[code],[blog]

LLM文本检测

【论文&代码】【美国麻省大学&谷歌研究院:改写文本可以避开AI生成文本的检测器,但检索则是一种有效的防御】[paper],[code]

【论文】【人工智能生成的文本能被可靠地检测出来吗?】[paper],[blog]

【论文】【DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成】[paper],[blog],[code&data]

【论文】【Detecting LLM-Generated-Text综述】[paper],[blog]

【论文】【一个专为教育者打造的全新 AI 检测模型】[blog]

【论文】【OpenAI重磅发布官方「ChatGPT检测器」】[blog]

【论文】【斯坦福最新研究:不要过度依赖GPT生成内容,其检测器可能存在不利于非母语英语写作者的偏见】[paper]

LLM长文本解决方案

【苏剑林】【Transformer升级之路:一种全局长度外推的新思路】[blog]

【博客】【ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成】[paper],[code],[blog],[demo1],[demo2]

【博客】【语言大模型100K上下文窗口的秘诀】[blog]

【博客】【RoPE可能是LLM时代的Resnet】[blog]

LLM可控性与安全

【可控性】【微软提出Control-GPT:用GPT-4实现可控文本到图像生成!】[paper],[blog]

【可控性】【AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施:探索隐私计算、区块链潜在应用》全面阐述】[paper],[blog]

【可控性】【ControlVideo: 可控的Training-free的文本生成视频】[blog],[paper],[code]

【安全】【大模型切脑后变身PoisonGPT,虚假信息案例】[blog],[code]

【安全】【ChatGPT羊驼家族全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出】[blog],[paper],[code]

LLM训练、微调、优化以及部署

【LLM学习网站】【训练、微调、优化和部署大模型最新技术LLM Learning Lab】[官网]

LLM训练

【LLM训练】【DeepSpeed的Tutorials】[主页],[DeepSpeed Getting Starte]

【LLM训练】【如何使用 Megatron-LM 训练语言模型】[blog]

【LLM训练】【Muti Query Attention 和 Attention with Linear Bias(附源码)】[blog],[paper]

LLM微调

【LLM微调】【PEFT: 在低资源硬件上对十亿规模模型进行参数高效微调 】[blog]

【LLM微调】【大语言模型(LLM)微调技术笔记】[code]

【LLM微调】【大模型LLM-微调经验分享&总结】[code],[blog]

【LLM微调】【LoRA:卷完图像生成领域,卷文本生成领域的东西,到时是个啥?】[blog],[code]

【LLM微调】【Washington大学2023年5月新提出一种高效的微调方法QLoRA,通过降低显存使用,实现在单个48GB GPU上对65B参数的大模型进行微调,只需微调12个小时就可以达到97%的ChatGPT水平。同时只用int4就可以保持fp16精度的效果。】[paper]

【LLM微调】【华盛顿大学提出全新量化和微调方法,在DB-GPT上享受33B参数的LLM】[blog]

【LLM微调】【陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型】[paper],[code],[blog]

LLM优化

【LLM优化】【LLM,压缩即泛化,泛化即智能】[blog]

【LLM优化】【LLM-Pruner: 剪枝+少量数据+少量训练 = 高效的LLM压缩】[blog]

【LLM优化】【邱锡鹏团队提出新优化器LOMO|650亿参数,8块GPU全参数微调】[blog],[paper]

【LLM优化】【伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增】[中文blog],[英文blog]

【LLM优化】【LLM Accelerator:使用参考文本无损加速大语言模型推理】[blog],[paper],[code]

【LLM优化】【大模型推理性能优化之KV Cache解读】[blog]

【LLM优化】【CAME:大模型训练成本降低近一半】[blog]

LLM部署

【LLM部署】【工程实践!以LLAMA为例的大模型部署方案】[blog]

【LLM部署】【大模型部署框架FastLLM解析,支持X86/Arm/CUDA 3种架构的硬件!】[blog],[code]

LLM博客、论文以及代码

【综述】【中文大语言模型汇总:医疗、法律、金融、教育、数学微调, 目前已1.1K星】[code]

【综述】【大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写】[paper]

【综述】【大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术】[paper],[blog]

【综述】【AIGC综述: 从GAN到ChatGPT的生成式人工智能简史】[paper]

【综述】【大模型综述来了!一文带你理清全球AI巨头的大模型进化史】[paper],[code]

【复旦大学】【复旦大学教授肖仰华:ChatGPT 浪潮下,面向大模型如何做数据治理?】[blog]

【谷歌】【面向决策的基础模型: 问题、方法与机会】[paper]

【谷歌】【较大语言模型上下文学习的方式有所不同】[paper]

【谷歌】【通用语音识别大模型已经支持100+语言】[blog]

【谷歌】【发布5620亿参数多模态模型PaLM-E,机器人操控再上台阶】[paper],[blog],[twitter],[video]

【Huawei】【PanGu-Σ: 稀疏异构计算万亿参数语言模型研究参数语言模型】[paper]

【剑桥大学】【奖励聊天机器人在现实世界中与数以百万计的用户进行互动】[paper]

【LeCun】【人工智能系统最终是否需要以现实为基础,而不仅仅是从语言中学习?】[blog]

【LeCun】【大型语言模型是否需要感官基础来理解意义和理解?】[slices]

【LeCun】【ChatGPT是「外星人」,所以才会胡说八道】[paper],[blog]

【LeCun】【AI聊天机器人并不关注用户的社交属性】[blog]

【LeCun】【LeCun和马库斯齐喷ChatGPT:大语言模型果然是邪路?】[blog]

【LeCun】【ChatGPT无法实现通用人工智能,但ALM技术路线也许可以】[blog]

【LeCun】【「增强语言模型」的综述 】[paper]

【LeCun】【自回归LLM的缺陷之一,大语言模型必须知道的8个要点】[paper]

【MIT】【从词模型到世界模型:从自然语言到思维概率语言的转变】[paper]

【李开复】【AI进入2.0时代,所有应用都会被重写一遍 】[blog]

【纽约大学】【提出ILF(从语言反馈中模仿学习):利用语言反馈大规模训练语言模型】[paper]

【OpenAI】【GPT就是GPT:大模型对劳动力市场影响潜力的早期研究】[paper]

【OpenAI】【ABC News 专访OpenAI首席执行官萨姆·奥尔特曼:AI风险和重塑社会的问题】[blog]

【OpenAI】【最新发布通用人工智能路线图!AGI比想象中来得更快!】[blog]

【OpenAI】【Sam Altman 担心“潜在的可怕的”人工智能工具以及“未来的人们如何看待我们” 】[blog]

【OpenAI】【The Age of AI:拾象大模型及OpenAI投资思考】[blog]

【OpenAI】【为什么ChatGPT用强化学习而非监督学习?】[blog]

【OpenNLPLab】【为什么ChatGPT用强化学习而非监督学习?】[blog],[paper],[codel]

【PWC】【ChatGPT和生成式AI的11大安全趋势】[blog]

【人大】【人大最新大语言模型综述,51页全面回顾大语言模型】[paper]

【清华大学】【张学工教授:AI技术前沿——从ChatGPT到更多突破】[blog]

【斯坦福】【研究大语言模型反映了谁的观点?】[paper],[code]

【斯坦福】【大模型及其公平使用】[paper]

【斯坦福】【构建大模型生态系统图,用于跟踪大模型的足迹】[blog]

【斯坦福】【斯坦福报告:基础模型的机遇与风险】[blog]

【微软】【一种新的大语言模型NLG评估框架】[paper]

【微软】【低代码LLM: LLM的可视化编程】[paper]

【微软】【微软提出LLMA:大型语言模型的无损加速,可以无损地加速带有引用的大型语言模型 (LLM) 推理】[paper]

【微软 & Meta】【ART:大型语言模型的自动多步骤推理和工具使用】[paper]

【EleutherAI&耶鲁大学】【提出Pythia: 跨越训练和扩展的大型语言模型分析套件】[paper],[code]

【博客】【ChatGPT的底层逻辑】[blog]

【博客】【智慧信息的压缩:模型智能的涌现之道】[blog]

【博客】【拨动大模型的琴弦|Delta Tuning 成果登上 Nature子刊封面!】[blog]

【博客】【大型人工智能模型中出现的不可预测的能力】[blog]

【博客】【为什么现在的大语言模型(LLM)都是Decoder-only的架构?】[blog]

【博客】【大型语言模型的涌现能力】[blog]

【博客】【大型语言模型成本分析】[blog]

【博客】【超越ChatGPT:大模型的智能极限 】[blog]

【博客】【Nature:AI模型越大越好吗? 】[blog]

【博客】【一场关于ChatGPT话语权的深度思考:人类会在大模型中迷失自我吗?】[blog],[blog译文]

【博客】【马斯克强调的TruthGPT 是什么】[blog]

【博客】【对话式AI搜索的技术路线猜想】[blog]

【博客】【AI走过多少路,才迎来了ChatGPT?】[blog]

【博客】【如何负责任地创建、发布和共享生成式 AI】[blog]

【博客】【大模型时代的“Linux”生态,开启人工智能新十年】[blog]

【博客】【揭秘ChatGPT背后的AI“梦之队”:90后科研“后浪”展示强大创新能力|智谱研究报告】[blog]

【博客】【In-Context Learning玩法大全 】[blog]

【博客】【一文理解“上下文学习”----大语言模型突现能力】[blog]

【博客】【回应吴军老师 | "ChatGPT不算新技术革命"】[blog]

【博客】【Poe向所有开发者推出Poe API,以便广泛获取基于LLM的服务】[code]

【博客】【【LLM系列之底座模型对比】LLaMA、Palm、GLM、BLOOM、GPT模型结构对比】[blog]

【博客】【大模型实践总结】[blog]

【博客】【【LLM系列之GPT】GPT(Generative Pre-trained Transformer)生成式预训练模型】[blog]

【博客】【【LLM系列之Tokenizer】如何科学地训练一个LLM分词器】[blog]

【博客】【大模型词表扩充必备工具SentencePiece】[blog]

【博客】【大模型知识&推理评估基准】[blog]

【博客】【万字长文说清大模型在自动驾驶领域的应用】[blog]

【博客】【一文速览大语言模型在推荐系统中的应用】[blog]

【博客】【NAACL & ACL:大模型的两种知识继承方案】[方案一],[方案二]

【博客】【a16Z:大模型应用程序的新兴架构】[中文blog],[英文blog]

【论文】【RetNet:MSRA提出Transformer全新替代大模型基础架构,推理速度8倍提升,内存占用减少70%】[blog],[paper]

【论文】【大模型微调指南:当GPU资源不足时的有效解决方案】[paper]

【论文】TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 】[paper]

【论文】AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators 】[paper]

【论文】【南加州大学:大语言模型统计偏好的挑战和危险】[paper]

【论文】【卡内基·梅隆大学 | 语言生成模型可能造成危害:那么我们能做些什么呢?】[paper]

【论文】【鹏程实验室等最新《大规模多模态预训练模型》全面综述】[paper]

【论文】【预训练基础模型综合调研:从 BERT 到 ChatGPT 的历史 】[paper]

【论文】【洛桑联邦理工学院提出REFINER框架,用于微调大规模语言模型】[paper]

【论文】【LLM-Adapters: 用于大型语言模型的参数高效微调的适配器系列】[paper]

【论文】【大型语言模型的涌现记忆和可预测记忆】[paper]

【论文】【机器心理学:使用心理学方法研究大型语言模型中的涌现能力和行为】[paper]

【论文】【Chameleon:使用大型语言模型进行即插即用的组合推理】[paper]

【代码】【大型语言模型相关文献资源列表】[code]

LLM数据集

COIG-PC】【智源研究院发布国内首个大规模、可商用中文开源指令数据集COIG:最大规模中文多任务指令集,上新千个中文数据集】[blog],[paper],[COIG-PC数据下载地址],[COIG数据下载地址]

Instruct/Prompt Tuning可用数据】【总结当前开源可用的Instruct/Prompt Tuning数据】[blog]

MiniGPT-4】【GPT-4平替版:MiniGPT-4,支持图像理解和对话,现已开源】[dataset]

Multimodal C4】【多模态C4:一个开放的、10亿规模的、与文本交错的图像语料库】[paper],[code]

Mind2Web】【Mind2Web: 首个全面衡量大模型上网能力的数据集】[blog]

OpenAssistant Conversations】【该数据集是一个由人工生成、人工注释的助理式对话语料库,覆盖了广泛的主题和写作风格,由 161443 条消息组成,分布在 66497 个会话树中,使用 35 种不同的语言。该语料库是全球众包工作的产物,涉及超过 13500 名志愿者。为了证明 OpenAssistant Conversations 数据集的有效性,该研究还提出了一个基于聊天的助手 OpenAssistant,其可以理解任务、与第三方系统交互、动态检索信息。】[dataset],[paper],[code]

Panda LLM】【为了让Panda LLM在中文数据集上获得强大的性能,作者使用了强大的指令微调instruction-tuning技术,将LLaMA基础模型在五个开源的中文数据集进行混合训练,其中包括来自各种语言领域的1530万个样本,例如维基百科语料,新闻语料,百科问答语料,社区问答语料,和翻译语料。】[blog]

RedPajama】【RedPajama开源项目|复制超过1.2万亿个令牌的LLaMA训练数据集】[原始blog],[中文blog],[dataset],[code]

Prompt工程

【博客】【OpenAI 应用人工智能研究负责人Lilian Weng新博文:关于提示工程的介绍】[blog]

【博客】【Prompt Engineering全面自动化】[blog]

【博客】【ChatGPT提示示例集合】[地址],[code],huggingface]

【博客】【深入浅出Prompt Learning要旨及常用方法】[blog]

【博客】【ChatGPT火爆,最全prompt工程指南登GitHub热榜,标星4.7k!】[code],youtube]

【博客】【ChatGPT Prompt工程:设计、实践与思考】[blog]

【博客】【全面的提示工程指南】[blog]

【博客】【指令学习综述|ChatGPT背后的指令学习是什么】[blog],[paper]

【博客】【免费教你提示工程,全中文教学】[主页],[code]

【博客】【吴恩达Prompt课程笔记】[主页]

【博客】【ChatGPT使用进阶,Prompt工程】[blog]

【论文】【面向大型语言模型的提升提示集成】[paper]

【论文】【DTG:一种简单有效的Prompt方法,激发大模型思考判断能力!】[blog]

AGI开源工具&博客&论文

【工具】【Google发布统计深度学习框架平台:OpenXLA】[blog]

【博客】【AGI的火花一作Sébastien Bubeck演讲万字全文】[blog]

【博客】【AGI通用智能发展的思考:是否存在足够通用的处理器?】[blog]

【论文】【OpenAGI:当大语言模型遇到领域专家】[paper],[code]

文本生成

ChatGPT

从GPT3到ChatGPT模型的发展路线图

ChatGPT_family

ChatGPT 应用篇

【58】【从 GPT 到 ChatGPT 的演进与应用思考】[blog]

【MIT & 哈佛大学 】【语言模型可以预测公众舆论 】[paper]

【中科院】【ChatGPT助力芯片,传统 EDA如何演变成智能EDA】[blog]

【微软】【《ChatGPT机器人:设计原则和模型能力》论文 】[paper]

【微软】【各种环境下的ChatGPT赋能长步机器人控制: 一个案例的应用 】[paper],[code]

【博客】【ChatGPT获得了「Wolfram」超能力】[blog]

【博客】【OpenAI开发Plugin将 ChatGPT 连接到互联网】[blog]

【博客】【ChatAug:利用ChatGPT进行文本数据增强】[paper]

【博客】【ChatGPT 是数据隐私的另一个障碍吗】[blog]

【博客】【基于ChatGPT的数据增强方法:ChatAug和AugGPT】[blog]

【博客】【Character.AI 在ChatGPT基础上加入个性化、UGC两大武器,有比 ChatGPT 更丰富的使用场景】[blog]

【博客】【让ChatGPT可以语音交互】[blog]

【博客】【“ChatGPT们”的淘金时代】[blog]

【博客】【70 款 ChatGPT 插件评测(含样例分析)】[blog]

【论文】【人大提出WebBrain:NLP新任务,通过网络数据的挖掘生成真实文章】[paper],[code]

【医疗】【ChatGPT爆火带来思考:医学界或将迎来与AI融合的奇点?】[blog]

【教育】【论ChatGPT大语言模型在教育中的机遇与挑战 】[blog]

【投资】【ChatGPT在投资研究领域的应用初探及原理分析】[blog]

【软件】【OpenAI总裁Greg Brockman转发|一种编译语言的调试器,利用ChatGPT旨在增强您使用GDB进行调试体验】[code]

【软件】【不必排队等 OpenAI Plugins,OpenBMB 开源大模型工具学习引擎】[blog]

【其他】【分析了ChatGPT技术以及落地应用场景 】[blog]

ChatGPT 工具篇

【工具】【ChatGPT 应用汇总及操作手册】[blog]

【工具】【ChatGPT提示和技巧速查手册】[blog]

【工具】【非常全面的ChatGPT、LLM相关资源整理分享】[code]

【工具】【ChatGPT超全面课程】[blog]

【工具】【BloombergGPT: A Large Language Model for Finance】[paper]

【工具】【ChatPDF:一键上传PDF文件即可解读 】[blog],[试用地址]

【工具】【ChatWeb:可爬取网页正文,并根据正文回答问题 】[code]

【工具】【chatgpt_academic:中科院基于 ChatGPT 专属定制的学术研究及日常开发工具】[blog],[code],[demo]

【工具】【Einstein GPT:SaaS 行业巨头 Salesforce 宣布与 OpenAI 合作,推出 Einstein GPT,这是全球首个用于客户关系管理(CRM)的生成式 AI 产品 】[Einstein GPT地址],[试用地址]

【工具】【HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace 】[paper]

【工具】【ImpressionGPT: 利用ChatGPT对放射科报告进行总结的迭代优化框架】[paper]

【工具】【OpenGpt:创建ChatGPT小应用的AI平台】[官网],[code]

【工具】【TagGPT:腾讯提出零样本多模态标签的大语言模型TagGPT】[paper],[code]

【工具】【Visual ChatGPT: 在视觉模型加持下的ChatGPT,聊天生图全拿捏了。】[paper]

【工具】【NetGPT:用于网络流量的生成预训练Transformer模型】[paper]

ChatGPT 技术篇

【符尧】【深度拆解GPT-3.5能力起源】[原文blog],[译文blog]

【知乎】【ChatGPT发展历程、原理、技术架构详解和产业未来】[blog]

【斯坦福】【82页PPT !最新ChatGPT: 提示学习, 指导微调和RLHF 】[blog],[提取码:chat]

【微软】【让天下没有难训练的大模型,微软亚洲研究院开源TorchScale 】[code]

【亚马逊 】【他们提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 】[paper],[code]

【OpenBMB】【Nature :生成式 AI 的前景与风险】[blog]

【博客】【万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现】[blog]

【博客】ChatGPT_Inference_Cost

【博客】ChatGPT_Official_API_Learning

【博客】ChatGPT_Parameter_is_not_175B

【博客】ChatGPT_Road_Map_from_yao.fu

【博客】Lessons_Learned_from_ChatGPT_Recurrence

【博客】LLM_Pre-training_Guide(Bloom-175B)

【博客】The_guide_of_training_LLM

【博客】【AI芯片制造商Cerebras发布7个基于GPT的大语言模型,现已开源】[官网地址 )],[GPT地址],[Hugging Face地址 ]

【博客】【大模型论文周报丨GPT-4发布,谷歌开放PaLM API,斯坦福7B开源模型Alpaca媲美GPT-3.5】[blog]

【博客】【LLaMA模型Meta版泄露,GitHub获8K星】[blog]

【博客】【ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark 】[paper]

【博客】【打造中国版ChatGPT,国内哪家实力最强】[blog]

【博客】【复旦大学邱锡鹏教授解读ChatGPT】[blog]

【博客】【万字长文:可能是全网最晚的ChatGPT技术总结 】[blog]

【博客】【ChatGPT作为知识库问答系统的问答能力评测 】[blog]

【博客】【ChatGPT作者John Shulman:我们成功的秘密武器】[blog],[blog译文]

【博客】【ChatGPT 是数据隐私的另一个障碍吗】[blog]

【博客】【Hugging Face 每周速递: ChatGPT API 怎么用?我们帮你搭好页面了 】[blog]

【博客】【复旦大学教授肖仰华:ChatGPT 浪潮下,面向大模型如何做数据治理?】[blog]

【博客】【腾讯在ChatGPT的布局】[blog]

【博客】【浅析ChatGPT:历史沿革、应用现状及前景展望】[blog]

【博客】【ChatGPT 背后的“功臣”——人类反馈强化学习RLHF 技术详解】[blog]

【博客】【万字长文解析!复现和使用GPT-3/ChatGPT,你所应该知道的】[blog]

【博客】【想训练ChatGPT?得先弄明白Reward Model怎么训(附源码) 】[blog]

【博客】【ChatGPT核心技术:强化学习PPO算法】[blog]

【博客】【解读 ChatGPT 背后的技术重点:RLHF、IFT、CoT、红蓝对抗】[blog]

【博客】【OpenAI ChatGPT Code Interpreter入门】[blog]

【伦理】【加拿大魁北克大学教授详述:我们该拿ChatGPT怎么办?】[blog]

【论文】【AIGC时代的ChatGPT全面综述】[paper]

【论文】【ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models】[paper]

【论文】【GPT-3 和 GPT-3.5 系列模型的全面分析】[paper]

【论文】【ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks】[paper]

【论文】【微软&佐治亚理工学院 | AdaLoRA:自适应预算分配以实现参数有效的微调】[paper],[code]

【论文】【微软 | 大型语言模型的语境忠实提示法】[paper]

【论文】【KAUST | ChatGPT问,BLIP-2回答模型:面向丰富的视觉描述的自动提问】[paper],[code]

【论文】【ChatGPT真的可以取代知识图谱问答吗? 】[paper],[paper翻译]

【论文】【Meta & 斯坦福大学推出FlexGen:用单个GPU进行大型语言模型的高吞吐量生成性推理】[paper],[code]

【论文】【ChatGPT破圈的「秘密武器」:详解RLHF如何影响人类社会! 】[paper],[blog]

【论文】【探讨ChatGPT在对抗攻击和分布外泛化下的鲁棒性】[paper],[code]

【论文】【复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限 】[blog],[paper]

【论文】【引导ChatGPT不要输出有害信息】[paper]

【论文】【Junnan Li大佬发表最新多模态的杰作BLIP2】[paper],[code],[blog]

【论文】【Instruction Tuning:无/少样本学习新范式 】[paper],[code]

【论文】【GPTScore:一种新的评估语言模型方法】[paper],[code]

【论文】【ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习】[blog],[B站]

【论文】【Fine-tune-CoT:小模型也能做推理,完美逆袭大模型 】[paper],[code]

【论文】【ChatGPT的潜力解锁:自然语言处理中应用、优势、限制和未来方向的全面探索】[paper]

【论文】【阿里巴巴&清华大学|大型语言模型在算术任务中的表现如何?】[paper],[code]

【代码】【本科生60行代码教你手搓GPT大模型 】[code]

GPT4

GPT4 官方文档

【博客】【GPT4_System_Card中文翻译】[blog]

【博客】【GPT4_Technical_Report中文翻译】[blog]

GPT4 博客篇

【博客】【【万字长文】GPT-4秘密泄露!所有的信息都在这里!从GPT-4 架构、基础设施、训练数据集、成本、视觉到MoE!】[blog],[原blog]

【纽约时报】【GPT-4 令人印象深刻但仍在 10 个方面具有缺陷】[blog]

【Open AI】【多模态大模型GPT-4的新突破】[blog]

【OpenAI】【重磅发布GPT-4】[blog]

【OpenAI】【GPT-4 创造者 Ilya Sutskever 谈 AI 幻觉和 AI 民主】[blog]

【OpenAI】【GPT-4创造者:第二次改变AI浪潮的方向】[blog]

【OpenAI】【当GPT-4进入北京市2022高考考场能有什么表现?】[blog]

【博客】GPT4技术细节

【博客】GPT4技术关键点总结

【博客】GPT4和ChatGPT的效果对比

【博客】The Ultimate GPT-4 Guide

GPT4 论文篇

【微软】【用GPT-4进行指令调优】[paper],[code]

【论文】【点燃通用人工智能的火花:GPT-4的早期实验】[原始paper],[中文版paper],[blog]

【论文】【GPT4All:用GPT-3.5-Turbo的大规模数据提炼训练一个助理式聊天机器人】[paper],[code]

【论文】【美国东北大学:可以通过要求GPT4反思“你为什么错了?”来提高30%的性能】[paper],[code]

【论文】【对ChatGPT/GPT-4研究的总结以及对大型语言模型未来的展望】[paper]

【论文】【评估日本医疗执照考试的GPT-4和ChatGPT】[paper]

【论文】【Amazon | 深入研究LLMs与AutoGPT的结合:揭示出GPT-4惊人的人类决策能力!】[blog],[paper],[code]

Anima

【33B QLoRA大语言模型Anima的性能超越了对比的所有的中文开源模型。】[blog],[code],[model]

Bard

【谷歌再次开放Bard访问权,向着ChatGPT发起再一次攻击】[报名地址 ],[blog],[theverge]

Baize

【用ChatGPT训练羊驼:「Baize」开源,轻松构建专属模型】[blog],[paper],[code],[demo]

baichuan以及扩展

【baichuan-7b】【王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访】[blog],[Hugging Face],[code],[Model Scope],[C-EVAL]

【firefly-baichuan-7b-qlora-sft】[使用Firefly项目中的QLoRA训练流程,在moss-003-sft-data百万多轮指令数据上进行了指令微调baichuan-7b模型],[blog],[Hugging Face model],[code],[Model Scope],[C-EVAL]

BLOOM

【【LLM系列之BLOOM】BLOOM: 多语言大模型】[blog],[paper],[code],[huggingface]

BiomedGPT

【BiomedGPT: 统一通用的生物医学生成式预训练Transformer】[paper]

Claude

【ChatGPT最强竞品Claude今日开放API】[产品地址 ],[申请地址],[API说明 ],[blog],[Claude支持100k上下文],[Claude2发布]

Claude 2

【ChatGPT最强竞品Claude2来了】[blog]

ChatGLM-6B以及扩展

【ChatGLM:千亿基座的对话模型开启内测 ⸺对应单卡版本开源】[blog],[code]

【chatglm+langchain+互联网,你可以将大模型接入网络了】[blog],[code]

【Chinese-LangChain】【基于ChatGLM-6b+langchain实现本地化知识库检索与智能答案生成】[code],[blog]

【ChatGLM_multi_gpu_zero_Tuning:简单高效实现多卡微调大模型】[code]

【浅尝prompt咒语设计:one-shot微调chatglm-6b实践信息抽取】[blog]

【ChatGLM-6B模型结构组件源码阅读】[blog]

【基于1万亿token开源大模型Falcon,超越650亿的LLaMA,可商用】[blog1],[blog2]

ChatYuan

【ChatYuan:基于PromptCLUE-large的中文对话开源大模型】[blog]

Copilot X

【GitHub Copilot X编辑器发布,大大提升编码速度】[blog]

ColossalAI

【穷孩子如何体验ColossalAI SFT(Colab篇)】[blog]

CPM-Bee

【中文基座模型CPM-Bee开源了】[blog],[code],[HuggingFace]

ChatDB

【清华大学和北京智源人工智能研究院的研究者们提出了ChatDB:用数据库作为符号性记忆模块来增强大语言模型】[blog],[paper],[主页],[code]

Dolly

【声称它 "像ChatGPT一样神奇",但只需要使用一台机器不到三个小时的时间里训练的数据少得多。】[blog],[Databricks Inc地址]

Dolly2.0

【Databricks的dolly-v2-12b,是一个在Databricks机器学习平台上训练的指令跟随型大型语言模型】[blog_en],[blog_zh]

DeepSpeed-Chat

【DeepSpeed对话:易于使用、快速而实惠的RLHF训练,在各种规模下训练ChatGPT模型】[code],[blog]

FrugalGPT

【斯坦福提出FrugalGPT|性能媲美GPT4,成本降低98%】[paper],[blog]

GPT3.5

【GPT3.5试用地址 】[试用地址]

JittorLLMs

【笔记本没有显卡也能跑大模型,具有高性能、配置要求低、中文支持好、可移植等特点】[code]

LLM as Controller

【LLM as Controller—无限拓展LLM的能力边界】[blog]

MetaGPT

【MetaGPT:多角色元编程框架】[code]

MiniGPT-4

【类似GPT-4图像理解与对话能力的AI大模型,已开源】[主页],[paper],[code],[video],[dataset],[Demo],[Demo1],[Demo2],[Demo3],[Demo4]

MOSS

【FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了】[blog],[code],[测试链接],[模型权重],[数据集]

OpenChatKit

【ChatGPT开源平替OpenChatKit:参数量200亿,在4300万条指令上微调而成】[blog],[code],[技术报告]

OpenAssistant

【ChatGPT全球最大开源平替OpenAssistant,基于Pythia和LLaMA微调而来,主要用于训练人类标注的数据,支持35种语言,免费可用RLHF数据】[官网],[paper],[code],[dataset],[youtube]

WebCPM

【首个联网支持中文问答开源模型WebCPM】[paper],[code],[blog]

LLaMA以及扩展

【LLaMA】【Meta开放小模型LLaMA,性能超过GPT-3】[paper],[code],[blog1],[blog2],[详聊LLaMA大模型的技术细节]

【LLaMA 2】【LLaMA 2技术细节详细介绍!】[blog],[在 Hugging Face 上玩转LLaMA 2],[伯克利AI博士详解Llama 2的技术细节],[Chinese-LlaMA2]

【llama2.c】【OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星】[blog],[code]

【LLaMA评测】[blog]

【Alpaca】【斯坦福发布了一个由LLaMA 7B微调的模型Alpaca(羊驼),训练3小时,性能比肩GPT-3.5】[blog],[官网],[model],[code]

【Alpaca-CoT】【Alpaca-CoT:多接口统一的轻量级LLM指令微调平台】[code],[官网]

【BiLLa】【BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型】[blog],[code]

【CaMA】【一种支持中英语言的LLaMA模型】[code]

【ChatLLaMA】【初创公司 Nebuly AI在LLaMA基础上加入RLHF 开源 ChatLLaMA 训练方法】[code]

【ColossalAI】【完整复现ChatGPT全流程】[code]

【ColossalChat】【用于克隆 ChatGPT 和完整 RLHF 管道的开源解决方案】[code],[blog]

【CAMEL】【从LLaMA衍生并适应临床的模型】[code],[blog]

【草本(原华驼)】【让LLaMA模型成为中医专家】[paper],[code],[blog1],[blog2]

【DB-GPT】【基于vicuna-13b和FastChat的开源实验项目】[code]

【DeepSpeed-Chat】【最强ChatGPT训练框架,一键完成RLHF训练! 】[code],[blog]

【ExpertLLaMA】【一个使用ExpertPrompting构建的开源聊天机器人,其能力达到ChatGPT的96%。】[code]

【FreedomGPT】【FreedomGPT使用Electron 和 React构建,它是一个桌面应用程序,允许用户在他们的本地机器上运行LLaMA。】[官网地址]

【FLAN】【【LLM系列之FLAN】Scaling Instruction-Finetuned Language Models】[blog]

【GoGPT/GoGPT2】【基于Llama/Llama 2训练的底座大模型,再扩充词表+继续预训练】[GoGPT code],[GoGPT2 code]

【Koala】【加州大学BAIR团队提出Koala:学术研究的对话模型】[blog_zh],[blog_en]

【LLaMA-Adapter】LLaMA-Adapter,一种用于微调指令遵循LLaMA模型的轻量级自适应方法,使用Stanford Alpaca提供的 52K 数据。】[paper],[code]

【LaVIN】【MMA方案让羊驼模型实现多模态:训练时间减少71.4%,成本节省99.9%】[paper],[code],[blog]

【lit-llama】【基于nanoGPT的LLaMA语言模型,支持量化、LoRA微调和预训练】[code]

【LlamaIndex】【面向QA 系统的全新文档摘要索引】[blog]

【llama.cpp】【量化130亿参数LLaMA模型的llama.cpp,推理仅需4GB内存】[blog]

【llama.cpp优化版】【Edge AI 变得更快|在 C/C++ 中移植 Facebook 的 LLaMA 模型】[blog]

【LIMA】【使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理】[blog]

【PaLM】【【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways】[blog]

【StackLLaMA】【使用 RLHF 训练 LLaMA 的实践指南】[blog_zh],[blog_en]

【Vicuna】【通过对从ShareGPT收集的用户共享对话进行微调的LLaMA训练,Vicuna-13B达到了OpenAI ChatGPT和Google Bard 90%*以上的质量 】[Vicuna官网地址],[blog]

图像、视频生成

【博客】【Genmo Chat】【这是一款创造性的copilot,使用GPT-4和一大套生成人工智能工具创建并编辑您需要的任何视频或图像。 】[blog]

【博客】【BlenderGPT】【一款基于GPT-4的扩展程序BlenderGPT开源,这是一个由GPT3/4驱动的全能AI编辑助手,为Blender提供支持 】[code]

【博客】【Firefly】【Adobe制造了一个人工智能图像生成器--并表示它没有窃取艺术家的作品来做这件事 】[blog]

【博客】【Bing Image Creator】【微软推出Bing Image Creator,用户可根据文本提示创建图片】[blog]

【博客】【Hugging Face 现已支持使用达摩院text-to-video模型从文本生成视频】[模型地址 ]

【论文】【最新女娲大模型,中科院提出NUWA-XL:扩散模型中的扩散,生成超长视频】[paper],[blog]

【论文】【艾伦AI研究院 & 华盛顿大学 | CHAMPAGNE:从大规模的网络视频中学习真实世界的对话】[paper],[code]

【论文】【用AI直接复现你在想什么,Stable Diffusion逼真复现图像】[paper],[blog]

【论文】【Stable Diffusion公司新作Gen-1:基于扩散模型的视频合成新模型,加特效杠杠的!】[paper],[site]

【论文】【使用Diffusers 实现 ControlNet 高速推理】[blog]

【论文】【文生图引入ControlNet,深度、边缘信息全能复用 】[paper],[code]

【论文】【ChatGPT|可用于AI绘画,效果飞升47% 】[paper]

【论文】【智源研究院提出SegGPT: 一个用于分割上下文中所有事物的通用模型】[paper]

【论文】【OpenAI开源新模型代码库Consistency Models,无需对抗训练即可快速获得高质量样本】[paper],[code],[blog]

【可控图文大模型】【伯克利&微软|用GPT-4进行可控的文本-图像生成】[paper]

代码生成

【综述】【代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战】[blog],[paper],[项目主页]

【博客】【GPT-Engineer|提需求即可生成整个代码库,已20K星】[blog],[code]

【博客】【StarCoder: 最先进的代码大模型】[blog]

【论文】【北京大学:具有大语言模型的自我规划代码生成】[paper]

【论文】【谷歌提出Self-Debugging:教导大型语言模型进行自我调试】[paper]

【论文】【通过自我改进实现更好的代码语言模型,显著提高模型生成任务的性能】[paper]

【论文】【Baldur: 基于大型语言模型的完全证明生成与修复】[paper]

【论文】【CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X 】[paper],[code]

【论文】【代码模型 CodeGeeX2-6B 开源,最低6GB显存,性能优于StarCoder】[blog],[code]

【论文】【CodeT5+:非常灵活的、面向代码理解和生成的开放大型代码语言模型】[paper]

工具】【Cursor:一个集成了 GPT-4 的国内直接可以访问的,优秀而强大的免费代码生成器,可以帮助你快速编写、编辑和讨论代码。】[官网地址]

【论文】【MIT最新研究:利用大预言模型生成Code】[paper],[code],[项目网址]

【论文】【MathPrompter: 基于大型语言模型的数学推理】[paper]

【论文】【MIT最新研究:利用大语言模型生成Code】[paper],[code],[官网地址]

语音生成

【论文】【Meta AI研究者推出MUSICGEN】[paper],[blog],[demo]

【论文】【文字、图片一键生成逼真音效,音频界AIGC来了】[paper],[code]

论文】【音乐可视化|利用大型语言模型和文本到图像模型帮助生成「音乐迪斯科」】[paper],[blog]

论文】【MetaAI发布第一个生成的人工智能语音模型Voicebox】[blog],[paper]

多模态生成

【BLIP-2】【高效训练多模态大模型(BLIP-2)】[paper],[code],[demo],[doc],[fine-tuing],[hugging face spaces]

【VisCPM】【SOTA 开源中文多模态大模型】[blog],[code]

【HuggingFace Transformers Agents】【一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」】[demo],[blog]

【LLaVA】【熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩】[paper],[introduce]

【UniDiffuser】【清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!】[paper],[code]

【Video-LLaMA】【人机视频对话|Video-LLaMA多模态框架,使大型语言模型具备了理解视频内容的能力】[paper]

【X-LLM】【多模态语言训练大模型】[项目地址],[paper]

欢迎共创

【👬🏻】欢迎Star ⭐️⭐️⭐️⭐️⭐️ && 提交 Pull requests 👏🏻👏🏻👏🏻

关于我

个人主页:wshzd.github.io

微信公众号

公众号二维码

声明

以上部分资料来自网络整理,供大家学习参考,如有侵权,麻烦联系我删除!

WeChat:h18821656387