德阳-()是指大语言模型通过给定的图片和描述,在图像中找到描述的位置。

['A:图像描述', 'B:视觉问答', 'C:视觉定位', 'D:图像生成']

自适应图片

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处: