关于语音输出的胡思乱想：语音记录的弊端和发展构想

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

关于语音输出的胡思乱想：语音记录的弊端和发展构想

偏执先生

2016-12-16

0 评论 5711 浏览 6 收藏

12 分钟

随着互联网在生活中逐步渗透，更多元的交互模式已经从幻想中走了出来，出现在了生活中。听觉相较于视觉而言，是一种更利于交流的方式。在一番清空大脑的思考后，胡乱分析了语音交互所带来的问题与发展。

语音行业类型分析

我们要了解语音，就需要结合当下的发展趋势去看，一个交互的手段当然不是我们所需求的最终目的，用户所需求的是手段所实现的终端是否有价值，所谓价值也就是：

是否提高了生活工作中的效率；
是否降低了用户达到目的的成本；
是否提升了用户的体验。

那么简单想想，语音出现的价值是满足任一条件的，当然，目前语音的发展还很初级，与技术与环境的关系密不可分，而所谓的语音产品也可以大致分为三类：

工具：科大讯飞、siri、Google now等
社交：啪啪、比邻等
内容：喜马拉雅、荔枝、蜻蜓等

在对比之下，仅仅是内容行业的发展迅速，而工具类和社交类并没有形成爆发式的发展，原因可能是多方面的：

工具类的科技技术是高端的，但是呈现形式仅仅停留在技术层面上，或者说仅仅是demo样式，完整的应用并没有实现；
社交类应用的门槛较低，用户范围较广，但大多数用户暂时无法改变图文式社交模式，加上语音本身就是一个信息获取成本较高的方式，所以就造成了用户使用上的反人类行为，不符合直觉。但也有例外，低俗或者说色情等语音是用户愿意违反自身直觉来获取的信息之一，因为信息本身就具备高吸引力，这就造成了语音社交的低俗性；
内容类应用的优势恰好是建立在语音的优势上的，语音的优势：1.比文字更为快捷、方便；2.解放了手眼；3.创造出了伴随性场景；4.声音本身的“成本”是很高的，名人的声音更有代表性。而这四点也是语音内容应用的最大优势。

关于语音行业或者是语音交互的问题，有兴趣的可以去看看《VR还早呢，互联网女皇看好的语音会是大机会吗？》，写得很不错，我也有很多想法来源于其中。

语音记录弊端

最便捷的语音记录是一站式的，即不需要进行任何操作的记录：录音。但是我也提到过，语音本身是获取成本较高的信息，加上语音的分类，辨认，保存上不如文字，所以才会出现语音→文字的转换形式。
市面上的笔记APP大多都支持语音录入，当然，准确率上是有所不同的，准确率最高的肯定是讯飞所做的讯飞语记讯飞在语音上的准确率与多元化是全球领先的，无论是在语音→文字，还是文字→语音上，都是出色的。
不过，实在不是我鸡蛋里挑骨头，或许英文和中文的语音录入都会碰到一些问题：

语言的低效性和冗余性的基础上，记录会变得更加的繁琐

我需要记录笔记：（1+2+3）*3=？
或许能口述：正括号，一加二加三，反括号，乘以三等于问号，甚至这样的描述都会出现错误。

这完全繁琐了公式，更别说上面这是最为简单的公式了，并且在语言中，需要随时注意切换，比如数字与汉字之间的判断切换，记账时的汉字大小写切换（一与壹）等等。

场景的局限性

语言的描述是不存在保存隐私的，普通人在家的时间大约是12小时，去除7小时睡眠时间。也就说在封闭环境中的时间仅仅为五小时，而存在于发散环境的时间是12小时甚至更多，基本是封闭环境的2倍；这就形成了一个问题，用语音时无法保证隐私的保护；当你在地铁，公司突然灵光一现，看了看身边的人，还是老老实实地打字记录了下来。

随时随地的“尴尬感”

这或许不能成为一个弊端。10年前，家长教育孩子在饭桌上做其他的事是不礼貌的，而现在的家长在饭桌上拍照发朋友圈；10年前，家长会教育孩子在路上看东西对眼睛不好，而现在的家长在路上刷着微博，看着小说。什么改变了？是环境改变了，我想，当语音交互成为了主流，尴尬感也会随之消除。

当然，并不是说语音记录会成为了鸡肋，在封闭条件下，语言还是会代替GUI交互，毕竟因为语音交互的独立性大大简化了生活中的内容。

语音交互问题

真正的交互方式，应该符合人的直觉，即上手就能用。

目前的语音APP无论是在工具端，还是在内容端，都存在不独立的操作，比如之前所说的讯飞语记，在语音输入之后延伸出的更多操作是非语音性质的，也就是修改，保存，查看，删除等，各方面都还是建立在了GUI交互的基础之上，我们排除了“尴尬感”再来建立一个用户场景：

小明是一个骑行爱好者，在户外骑车的过程中偶有感触，想记录一下心中所想：

“嘿，siri,打开讯飞语记”，“开始记录”，“哇！成都的天好蓝呀！”

然后，问题来了，小明需要看看是否写错了，他停下了车，掏出了手机，发现语记忘了重要的感叹号了，那好，修改，保存。

怎么样，是不是觉得在用语音记录的过程中步骤的数量并没有减少？仅仅是记录过程由触控变为了语音？既然是这样，为什么需要语音记录？

人类与其他高智商动物的最大区别不在智商，而在语言，语言诞生的一刻，即成为生物联系的最重要和最有效的方式。

为什么这么说？因为现有人人交互中（不考虑未来会有的脑波人人交互），最有效的就是语言：我渴了，帮忙让人买瓶水；我饿了，帮忙让人买吃的……这些在现在即使有即时社交软件的情况下，还是语言最有效率，这也是为什么我认为语音交互会成为，至少不远的未来会成为主流交互方式。
Amazon echo就是一款相当成功的语音交互产品，无论是从产品设计，还是产品定位来说都是相当的完善。