第一个完全多 GPU 支持和非常先进的带有 Gradio 接口的批量图像字幕生成器 APP 发布-Python教程

带有 joycaption 的多 gpu 批量字幕。 joycaption 使用 meta-llama-3.1–8b 和 google/siglip-so400m-patch14–384 以及微调的图像字幕神经网络。

链接：https://www.patreon.com/posts/110613301

批量字幕编辑器的链接：https://www.patreon.com/posts/108992085

用 Python、Torch 和 Bitsandbytes 编写多 GPU 确实是一个挑战。

我们的APP使用JoyCaption图像字幕微调模型。

我们的应用程序甚至在多 GPU 模式（9.5 GB VRAM）下也支持 bitsandbytes 4 位模型加载

在 8x RTX A6000（云）和 RTX 3090 TI + RTX 3060（我的电脑）上测试

一键安装在 Windows、RunPod 和 Massed Compute 上

优秀的字幕质量，自动将图像分配到每个GPU，功能很多。您可以使用跳过带字幕的图像选项来恢复字幕。

欲了解完整详情，请查看屏幕截图

以上就是第一个完全多 GPU 支持和非常先进的带有 Gradio 接口的批量图像字幕生成器 APP 发布的详细内容！