手势交互有哪些方式?从6个角度对这3种交互方式进行了分析和对比

动态未结置顶精帖  

用户 VIP

悬赏：60飞吻

手势交互、触控交互和语音交互是当下主要的3种交互方式，本文笔者结合可用性评估指标和自己调研使用中的发现，从6个角度对这3种交互方式进行了分析和对比，供大家参考。

吃小龙虾的时候，最怕需要用手机，脱完手套还得擦手。遇上重要来电，也管不了那么多了，油乎乎的手直接往屏幕上按，按了半天，才发现手机根本识别不到被层层辣油浸染过的手指头。(ノ=Д=)ノ┻━┻

随着技术发展，这种烦恼可以消失了。近日华为发布了Mate30，其中出现了一种相对新颖的交互形式——隔空手势操作。

当你在吃螃蟹满手腥味时，当你在剥小龙虾满手都是油时，都依然可以无障碍地使用手机。

图片来源：华为官方宣传片截图

其实，这种交互方式并非首次出现在手机终端里。在今年年初的MWC上，LG已推出了同样性质的Air Motion。

这些产品能够落地，说明手势识别技术在不断发展，当前已达到投入实际应用的标准。

图片来源：LG官网

逐渐进入大众视野的手势交互，经典高效的触控交互，还有在IOT领域表现亮眼的语音交互，构成了当下主要几种交互方式。

我将结合可用性的评估指标和自己在调研、使用中的发现，从以下几个角度对这三种交互方式进行对比：

适用场景
交互效率
准确性与容错性
学习成本
情感互动
隐私性

需要说明一点，本文中的手势交互是指通过计算机视觉识别出的手势动作，无需和实体进行接触，类似于Mate 30的隔空手势操作或者HoloLens的手势操作。而我们日常使用的对ios等进行控制的手势动作，在此文中和按钮按键一起，统一归入触控操作内。

一、适用场景

我们应针对不同场景的特征去选择相应的交互方式。对适用场景理解可以从以下三方面入手：

1. 物理层面

语音交互需要用户能进行听和说；触控交互需要用户能和设备进行接触；手势交互需要用户的手能自由移动。但在一些场景下，用户并没有条件进行上述交互行为。

以医生为例，可能在他已经对双手进行严格消毒后，仍需要查看病人的相关资料。但是他无法确保，所有的屏幕、X光片、档案等都是干净的。这时如果能通过非接触的手势或语音进行操作，就不会有被污染的风险。

还有像开车的过程中，有些路段是非常嘈杂的，语音交互可能无法很好地识别对话内容；低头使用触控屏又有些危险。这时采用手势交互，就能在相对安全的基础上完成用户的指令。

选择交互形式的关键，是要回归到使用场景中，采用各场景内的最优解。

2. 心理层面

进行语音交互时，用户需要把指令说出来。当只有自己一人时，说些什么可能都没有关系。但当人多起来时，尤其是不熟悉的人多起来时，当众说一些东西会让用户觉得自己很傻。

此外，公共空间内，涉及到相对私密的内容时，用户也不想这样公之于众。就像蜘蛛侠在得到语音控制的智能眼镜Edith后，也只能躲在车的角落里小心翼翼地说话。

此外，当人正在与他人进行交流时，使用语音进行交互是一件打断性非常强的事情。例如几个人聊天聊得正嗨，想要播放音乐或调解灯光来营造气氛，突然来一句“小张同学，播放音乐”会显得很突兀。这种时候，如果打个响指就能达到目的，会方便自然许多。

大家可能都有在电视内进行搜索的经历，电视上的键盘操作起来非常麻烦，用着用着就有想摔遥控器的冲动。现在很多电视支持语音检索，在精细搜索方面，比之前方便了许多。

以上的这些尴尬、紧张、烦躁等情感，都与选择了错误的交互形式相关。

3. 文化层面

不论你是上海口音还是广东口音，启动iPhone时按的都是开机键。但在进行语音交互时，可能就会遇到一些麻烦，因为多数都是以普通话为基准。

在这种地方口音非常混杂的情况下（例如面向老年群体或是口音重的地区），语音交互的实用性就会大幅降低。

此外，在不同国家，手势的含义也可能截然不同。例如最近被恶搞出种族歧视含义的ok手势，在大部分地区还是代表着相对正面的含义。因此在进行设计时，也需要考虑到不同的文化背景。

二、交互效率

交互效率可以从空间和时间两个维度进行考虑。

1. 空间

触控交互是需要某种实体承载的，用户必须要接触到设备才能发出指令。当设备离用户有一定距离时，则必须要先靠近才能进行操作。

例如当遥控器不在手边时，就必须过去拿到它才可以进行操作。而且懒惰是人的天性，躺在沙发上时就会觉得走几步去拿遥控器也是件麻烦事。

手势交互和语音交互则在空间上更为自由，只要在有效交互区域内就可以（即摄像头能“看清”，麦克风能“听清”），不需要用户亲身接触到设备。

当用户离实体设备有一定距离时，这两种方式是更为高效的。

2. 时间

当触控产品就在手边时，触控操作需要的时间可能是三种交互方式中最短的。而且像苹果还开发了“捷径”功能，人为地进一步精简操作路径，缩短交互时间。

目前的语音交互都需要一些唤醒词。相较于其他交互形式，唤醒设备+清楚表达指令的过程通常会花费更多的时间。

有团队将唤醒词更短作为产品卖点，个人感觉这也从侧面反映了唤醒这段较长的交互流程可能是智能音箱的痛点之一。之前有科技新闻报道，已有团队能做到无需唤醒词，只通过分析说话人的语音语调语气，来判断是否唤起设备。

但是就目前的技术而言，尤其在稍复杂的场景下，无唤醒词的做法可能风险比较大。

手势交互中，指令性的内容可以分为组合型动作和独立动作（我自己定义的(ง •̀灬•́)ง）。我们可以将操控对象和指令合在一个手势动作中，也可以拆分用两个动作表示。

例如想要音量升高时，可以定义动作为“音量”+“升高”或者“音量升高”。组合型动作花费的时间更长，独立动作花费的时间更短。

三、准确性

1. 指令识别的准确性

在识别指令方面，触控交互的准确率是最高的。不论我们是要开关灯，还是要点击屏幕上的某个按钮，只要用户在对的地方用对的方式进行操作，指令几乎都能及时被设备接收并执行。

上一篇 : 导航界面设计有哪些模式?分享导航界面设计的5大模式

下一篇 : 什么是小程序矩阵?分享3种模型与思考

回帖

消灭零回复