Firefox Nightly 引入实验性的本地图像替代文本生成功能 Firefox ...

Firefox Nightly 引入实验性的本地图像替代文本生成功能

Firefox 130（目前稳定版是 v126)将为使用屏幕阅读器的视觉障碍者提供一项辅助功能：利用运行在本地的机器学习模型为图像自动生成文本描述。该功能将首先作为 PDF 编辑器的一部分提供，之后将扩大范围，作为常规浏览的一部分提供给使用屏幕阅读器的用户。它使用的机器学习模型是基于 Transformer，通过 COCO（Common Object In Context）或 Flickr30k 等数据集训练去识别图像中的不同对象，使用前需要一次性下载不到 200MB 大小的文件，虽然性能比不上知名大模型如 GPT-4 Turbo with Vision 或 LLaVA，但对于描述图像足够正确，对硬件需求也很低。

- https://www.solidot.org/story?sid=78341
- https://hacks.mozilla.org/2024/05/experimenting-with-local-alt-text-generation-in-firefox-nightly/

cxplay_clip on Nostr: Firefox Nightly 引入实验性的本地图像替代文本生成功能 Firefox ...