【CNMO科技动静】近日,CNMO留意到,苹果研究职员开发出一种练习图象描写天生AI模子的新要领,新模子能给出更精准具体的描写,且模子范围远小在现有同类模子。

于一项名为《RubiCap:Rubric-Guided强化进修用在密集图象描写天生》的新研究中,苹果研究团队与威斯康星年夜学麦迪逊分校互助,构建了一个密集图象描写天生模子的新框架,于多个基准测试中取患了领先结果。密集图象描写天生旨于为图象内每一个元素及区域天生具体描写,而非单一总体概述,能让人更深切理解图象场景,可用在练习视觉语言及文本转图象模子,晋升图象搜刮及辅助东西等功效。

研究职员指出,当前练习密集图象描写天生模子的AI要领存于较着不足。标注高质量专家级数据成本昂扬,虽可用强盛的视觉语言模子天生合成描写,但监视蒸馏获得的输出多样性有限、泛化能力衰,强化进修虽能降服这些局限,但于开放式描写天生中难以运用。

为此,研究团队提出新框架。他们从PixMoCap及DenseFusion-4V-100K两个练习数据集中随机抽取50000张图象,用Gemini 2.5 Pro、GPT-5等现有视觉语言模子为每一张图象天生多个描写选项,同时让RubiCap框架下的待练习模子天生自身描写。接着,RubiCap用Gemini 2.5 Pro阐发图象、候选描写及模子自身输出,确定评判尺度,再由Qwen2.5-7B-Instruct按照尺度打分,为练习提供奖励旌旗灯号。

终极,研究团队天生了RubiCap-2B、RubiCap-3B及RubiCap-7B三个模子,参数别离为20亿、30亿及70亿。与现有要领比拟,它们体现精彩,甚至逾越了参数多达720亿的模子。于盲排名评估中,RubiCap-7B于所有模子中排名第一,幻觉处罚最低、正确性最强。研究还有注解,30亿参数的小模子于某些基准测试中体现优在更年夜范围模子,象征着高质量密集图象描写天生模子纷歧定需要重大体量。
版权所有,未经许可不患上转载
-金年会|金年会·jinnian(金字招牌)诚信至上

