物理对象的音频描述

Title: AUDIO DESCRIPTION OF PHYSICAL OBJECTS

Patent No.: 20260093449
Application Date: 2025-09-22
Assignee: Apple Inc.
Inventors: Anshu Chimalamarri

摘要

在一个实现中，一种播放声音的方法由具有图像传感器、一个或多个处理器和非易失性存储器的第一设备执行。该方法包括使用图像传感器捕获包括物理对象的物理环境的图像。该方法包括确定满足一个或多个描述标准，其中描述标准包括当第一设备检测到用户的视线指向物理对象时满足的标准。该方法包括，在确定满足描述标准后，播放描述物理对象的声音。

Patent Drawings

技术领域

本专利属于人机交互技术领域，具体涉及通过音频描述物理对象的技术。

发明背景

视障人士在识别或了解物理对象的状态时可能存在困难。现有的设备通常无法提供针对用户视线或特定需求的动态音频描述，这限制了视障用户的交互体验。本发明旨在解决这一问题，通过提供基于用户视线和特定条件的物理对象音频描述来改善用户体验。

发明总览

本发明提出了一种基于用户视线和特定条件来提供物理对象音频描述的方法和设备。该方法通过图像传感器捕获物理环境的图像，处理器确定对象的描述，并在满足描述标准时通过扬声器播放描述声音。设备使用眼动追踪技术检测用户的视线方向，并根据特定条件（如用户请求、对象类型或相似对象的存在）来决定是否播放音频描述。相较于现有技术，本发明提供了更智能和个性化的音频描述体验。

核心创新

通过眼动追踪技术检测用户视线方向，并基于视线方向提供物理对象的音频描述，实现更精准的交互。
引入描述标准，包括用户请求（如语音命令或手势），只有在满足特定条件时才播放音频描述，提高交互的灵活性和用户控制感。
支持基于对象类型的音频描述，当检测到特定类型的对象时自动触发描述，适应不同场景需求。
实现对相似对象的识别和描述，当检测到多个相似对象时提供更全面的信息，帮助用户区分和识别。
设备可以接收来自其他设备的用户界面元素描述，并基于接收到的描述播放音频，实现跨设备的无缝交互。
通过光学字符识别（OCR）技术对物理对象上的文本进行识别，并基于识别结果提供音频描述，增强信息的获取能力。
音频描述可以空间化地从物理对象的位置播放，提供更直观的听觉定位体验，适用于增强现实（AR）和虚拟现实（VR）应用场景。

View on WIPO

Analyzed by Patent Digest System
2026-04-05 13:42