Awesome

一句话概述：

基于youtube、bilibili等视频平台、webpage网页等，利用零一万物大模型或ollama本地小模型构建大语言模型高质量训练数据集（计划支持可自定义输出的训练数据格式）

update news！

2024-5-2：增加对webpage网页的question生成支持 项目地址：https://github.com/zjrwtx/WebQuestions_databuilder 通过Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供微调数据合成使用

2024-4-29：增加对bilibili视频的question生成支持 项目地址：https://github.com/zjrwtx/bilibiliQA_databuilder 可基于bilibili视频构建大模型问答训练数据，输入bilibili视频地址等信息即可生成questions数据供videoQA_databuilder项目使用

演示视频地址

基于youtube和bilibili等其他平台和零一万物大模型构建大语言模型高质量训练数据集（计划支持可自定义输出的训练数据格式）

使用过程描述：

使用youtubquestion_builder.py生成指定视频的questions文件——本项目读取questions文件——然后基于零一万物模型生成基于视频内容的回答后自我调整——最后将回答保存到answers.json文件。

本项目遵循GPL许可证，欢迎贡献代码或提出改进建议。项目地址：https://github.com/zjrwtx/VideoQA_databuilder

如何运行

1、克隆到本地

git clone https://github.com/zjrwtx/AIgene_anki.git

2、安装依赖

pip install -r requirements.txt

3、复制.env.example文件为.env 填写大模型的环境变量

4、运行python main.py 如顺利无报错即可看到可视化程序

5、使用youtubquestion_builder.py生成指定视频的questions文件

6、开始在可视化程序上读取questions文件，填写必要内容，利用零一万物大模型生成对应数据answers

贡献

欢迎贡献。请先 fork 仓库，然后提交一个 pull request 包含你的更改。

联系我

微信：

agi_isallyouneed

微信公众号：正经人王同学

X（推特)正经人王同学:https://twitter.com/zjrwtx

许可证

本项目遵循GPL许可证，欢迎贡献代码或提出改进建议。项目地址：https://github.com/zjrwtx/VideoQA_databuilder

非商业用途：本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

特别感谢

零一万物

本项目主要参考以下项目而改造： https://github.com/huang1332/finetune_dataset_maker