Gemini对话就能分割图像Gemini对话圈出图中物体Gemini2.5支持

Gemini对话就能分割图像Gemini对话圈出图中物体

Gemini 2.5支持用对话进行图像分割了。

也就是说，Gemini能听懂你的自然语言描述，并准确标注对应区域：

- 【图1】“safe places to land”：在直升机视角图中，系统成功圈出楼顶的停机坪；

- 【图2】“the person holding the frisbee”：在公园草地场景中，识别并标注出正准备投掷飞盘的男性；

- 【图3】“the people who are not sitting”：会议室中，准确标出站立的两人；

- 【图4】“the area that should be cleaned up”：识别出厨房台面上的红色液体污渍；

- 【图5】“the pistachio baklava”：在面包店内，通过读取招牌文字，圈出开心果口味的甜点；

- 【图6】“tous les objets en français”：在法语提示下，将餐盘上的各类食物和物件用法语标注；

- 【图7】“the shadow of the building”：航拍图中识别出建筑在地面上的完整阴影；

- 【图8】“people not wearing a hard hat”：工地场景中，仅标出未佩戴安全帽的工人；

- 【图9】“damaged house”：龙卷风过后的航拍图中，自动分割出受损房屋，而非仅识别建筑物本体。

Gemini 2.5实现的核心突破包括：

关系理解：不仅能识别“一个人”，还能理解更复杂的关系描述，如“举手的人”“第三本书”或“最蔫的花”；

逻辑判断：能够识别否定与条件关系，例如“不在坐着的人”“没戴安全帽的工人”，甚至结合上下文进行过滤和判断；

抽象概念识别：通过世界知识理解“需要清理的地方”“建筑的阴影”“受损的房屋”等抽象或模糊概念在图像中的具体位置；

图像文字识别：当视觉信息不足时，如“开心果口味的甜点”，Gemini可识别图中文字辅助定位；

多语言支持：可理解并回应多种语言提示，如在法语输入下输出法语标注，适用于跨国和多语环境。

这项能力的实际价值包括：

图像编辑更高效：设计师无需手动抠图，仅需语音或文字提示“选中楼的阴影”即可自动操作；

智能安全监测：自动识别“未佩戴安全帽的人”或“存在安全隐患的区域”；

理赔与风险评估自动化：快速识别“被台风破坏的房屋”等关键视觉信息。

该功能目前支持Web端（Google AI Studio）和API调用，开发者可查阅Gemini API文档了解使用方法。

0 阅读：0