从RayBan Meta起头，聊聊智能眼镜

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

从RayBan Meta起头，聊聊智能眼镜

等待XR的春天

2024-12-25

0 评论 1247 浏览 0 收藏

27 分钟

大模型发展成熟之后，现在不少可穿戴设备都开始加入大模型。比如Meta RayBan的智能眼镜。具体表现和使用场景如何？我们看看作者的分析。

眼下“百镜大战”非常火热，GPT的视觉多模态也可以直接使用了，借此机会把自己对智能眼镜的认知整理一下。按顺序分为4个部分：

1.Meta RayBan的成功原因

2.市场替代选择和产品替代选择

3.智能眼镜的定位和场景思考

4.从手机外设到新的计算终端

一、对Meta RayBan“出圈”的认知

Meta RayBan是因为RayBan的品牌、欧美市场的消费能力、优异的基本功能达成的百万级的销量；AI只是兴奋型需求，是产品演化方向的未来。

RayBan的影响力是成功的坚实基础

RayBan是世界上最大的眼镜品牌之一，占据高度分散的眼镜市场5%的市场份额；在相对集中的太阳镜市场，尤其是占比超过60%的北美、欧洲市场，RayBan是领头羊，有着巨大的品牌影响力。

RayBan”时尚、年轻、高端“的品牌形象又牢牢的吸引着一代代的年轻群体，他们追求创新，也有足够的付费能力，这样的人群正是一种新形态的电子消费品的绝佳客群。

除此之外，眼镜是以线下销售渠道为主（占比超过8成），因为需要实际佩戴、体验和对比，RayBan作为行业老大在线下的销售渠道也是非常大的助力之一。

在此基础上，Meta的产品定位和功能打磨撬动了市场

在产品的定位上，音频、抓拍的功能特性和佩戴太阳镜的场景（开车、户外旅游等）达成了非常好的共振，没有其他追求无谓创新的多余举动，保证了整体的重量形态控制。（补充：个人认为太阳镜更畅销，我没有找到直接的数据，但是我看BestBuy的购物评价晒图太阳镜款的比例更大一些）
在功能体验层面，通过实际用户评价可以看到，大部分用户评价的关心是拍照效果好、音频素质好，达成甚至超出用户的预期。

进一步的延伸到价格，能够称为耳机、相机、墨镜组合体的产品仅仅比墨镜贵了50%，约100美金，正如上面提到的RayBan的用户群体，他们非常愿意为之付费；Meta也有能力在保证良好的产品体验的前提下压低/甚至补贴来出售这款产品。

最后是AI，让这款设备真正的充满想象，但需要时间

Meta虽然早早的预告了AI的能力，并且也有公开演示，但AI能力还刚刚开始推送，此外在可用区域外的使用非常困难，Reddit对应频道下，最多的问题之一就是非可用区域如何使用AI（其他讨论比较多的是照片视频分享/遮挡LE等）。结合眼镜已经销售的时间，AI作为期货可能吸引了尝鲜者，一定程度促进了销售，但不是核心因素。
随着模型能力的提升，Meta可以不断的更新AI的能力，不断的挖掘真正能够使用和落地的场景，庞大的出货量和活跃度就是智能眼镜最好的试验田。（顺便，Meta在这个行业内的投入是实打实的，各类实验性的项目、尝试都值得尊重）

所以，并不是给眼镜加个摄像头或者增加AI语音就可以卖出百万台，Meta RayBan的成功背后是精准的产品定位+过硬的功能体验+品牌支撑。

二、Meta RayBan在替代哪些产品？

Meta RayBan或相似的智能眼镜并不是一个完全破坏式的产品，而是很多功能进行组合的渐进式创新，随着继续出货，它会在市场上替代哪些产品？会和哪些产品产生竞争呢？这也是发现其实际场景、寻找差异的方式。声明：只考虑电子消费品，不考虑功能性眼镜的部分。

很重要出发点是形态，眼镜会直接影响用户的外貌，其他的电子消费品则没有如此大的影响。实际中，眼镜的样式远多于单一电子消费品的样式，一个眼镜店可能就有成百上千的眼镜框供选择。因此，眼镜的形态天然带来了较高的选择、替代成本，用户在需要佩戴眼镜的场景下才更容易接受它。在眼镜的重量、音频、续航等达标的情况下，智能眼镜对日常佩戴眼镜的用户很有吸引力，在日常工作/会议/运动等通用场景下都会更方便；而对其他人群，旅游/驾车/户外运动等原本就要佩戴眼镜（墨镜/防风/滑雪镜）的场景则可以帮助克服这一成本。

市场替代选择1——蓝牙耳机

全球蓝牙耳机的年出货量以亿计，毫无疑问是一块巨大的蛋糕。

在Meta RayBan的用户中一个大的使用场景就是用它替代蓝牙耳机，随时随地打电话/听播客/听音乐。Meta RayBan可以归类到开放式耳机的形态下，这种形态近些年也在很好的增长，耳机使用时间上升，也让很多用户希望降低对耳朵的阻塞；同时，这一代的Meta RayBan也升级了第一代被诟病的音频问题，达到了一个比较好的状态。

另一个大家感知比较少的是Meta RayBan的麦克风阵列，我个人体验时最震撼时刻是第一次使用眼镜录制再播放的时候，仿佛说话的人就在刚刚的那个位置，现有的手机/耳机去录制都达不到同样的效果。麦克风阵列也能更好的在各类场景（公共交通、嘈杂环境等）收音，如果是通话的场景能让对方获得更好的沟通体验，对比Airpods的麦克风效果，这是非常好的升级。不过，日常通话中是对方听到我们说话，所以感知可能不那么强。

产品替代选择2——音频眼镜

音频眼镜是Meta RayBan的一个功能子集，国内华为/米家的音频眼镜也早就存在，并占据极大的市场份额。据统计2022年这个市场的出货量达到340万副，今年国内市场1-7月线上销量7万台，华为占据近60%+的市场份额。两相比较，Meta RayBan自去年发布以来就已经达到了300万副的销量，要怎么剖析其中的原因呢？从我个人体验两款眼镜的音频效果角度来讲，我并没感觉到巨大的差异，那剩余的差异就在相机功能、品牌、市场消费能力上，具体各个因素能够有多大的影响就见仁见智了。我倾向于认为RayBan的高端时尚品牌和欧美较强的消费能力起了更主要的作用，或许还有运气成分也说不定。

同类的其实市场上还有AI音频眼镜，他们在音频基础上增加了AI能力，在现阶段的AI能力下，没有聚焦到具体的场景只是把对话能力加入，对产品走向大众消费者帮助不大；作为初创品牌，号召力更是无法对比华为/小米，那其销量的前景也很难说好。

产品替代选择2——头戴式相机

眼镜上的摄像头可以说和头戴相机是同一个内核，但是头戴相机的品类并没产生消费者市场，大部分人不知道有这种东西。可以从几个角度观察和对比，一方面，传统做这个品类的厂商的技术能力、关注点可能有偏差，没有考虑到这样一个产品在头上的“怪异”，追求高质量带来的大体积让形态更怪异，继而收缩成某些B端场景下的商品；另一方面，运动相机通过各类配件的组合，比如挂在脖子上、安装在头盔上、手持自拍杆，更加的灵活方便，直接吃下了这类产品的市场；再者，第一视角拍摄的需求并不是一个高频、普适的需求，在少数场景里充满想象、大部分场景里并不那么重要。相机角度，还有两个大品类有一定的替代关系，通用场景的手机和垂类场景的运动相机。

市场替代选择2——手机

在上一节我们其实圈定了用户在需要佩戴眼镜的场景下才更容易接受这它，在这些场景中，眼镜相机提供了手机无法竞争一点就是抓拍，一个按钮或一句语音的交互确实比拿出手机、打开相机、找到角度、拍摄的流程短非常多，这显而易见。而另一个想聊的内容是沉浸、第一视角、所见即所得这几个概念，在这里沉浸是眼镜的形态让用户不需要改变观察场景/世界的方式，我的眼睛仍旧直接的看着环境，而不是透过手机屏幕，最典型的就是演唱会，想象一下就能感受到其中的差异，所以这是一个很重要的优势。延伸开来，手机拍摄可以调整角度、构图、是所见即所得，而眼镜在没有显示的情况下并不是所见即所得（第一视角不能规避这一点，我认为大部分人拍摄完如果分享还是会在手机上审视一下效果）；加上显示有一定的帮助，但是总归是隔了一层，从这一点来讲各有优劣。

市场替代选择3——运动相机

对比运动相机，眼镜+相机的2合1属性是优势之一，Reddit RayBanMeta频道分享的照片，涵盖了跳伞、滑雪、骑行、过山车、赛车/水上摩托/沙地摩托、钓鱼、演唱会等，这也可以以小见大，原本很多运动相机的使用场景在被眼镜相机替代，所以不久的将来运动相机的厂商应该也会切入这个品类。

这样比较下来，会发现Meta RayBan的产品定位非常精准，聚焦垂类场景（户外，太阳镜+抓拍+音频），打造优异的产品体验（毕竟一代翻车了- -）。随着出货量和活跃度的提升，慢慢地加入AI能力，控制用户预期，步步为营。

三、手机外设、多模态AI和实际场景

手机外设

智能眼镜首先需要满足眼镜的形态、功能需求，需要控制极低的重量，现有的50g只是部分场景人群的可用门槛，脱离使用场景/人群的50g并无意义，对更大范围的人群来说，应该需要更轻，目前并不值得乐观。现有技术条件下，小型化要么做功能取舍、要么降低功能质量，耳机、相机、显示屏这几个最明显的的选择也就出现了，单一功能或者排列组合。罗列了一下对应设备当前的典型场景、小型化情况、实用性程度。

也是通过这个表格看到了Meta的选择逻辑，发现写着写着就在猛吹Meta了，从智能眼镜的角度确实最先抛弃的就是不成熟、价值低的显示，而在AR/VR行业做了几年的的误区就是过于聚焦显示，这是最应该调整的思考角度。

先做好手机外设是一段时间内智能眼镜的清晰定位，逐步覆盖传统眼镜人群，蚕食一部分耳机/手表的市场，手表的健康/通知能力眼镜上也有厂商在尝试。这两个品类的年出货量如下：

当下的多模态AI

而这个过程中，反复提到眼镜形态，这将将是双刃剑，离身体更近，要求却更高，而多模态AI将会是最大的底牌。AI提问、智能翻译、拍照答题、实时导航、语音记录等等都是大家发布AI能力的时候经常演示的场景，确实AI在每个场景里都是可用的；近期ChatGPT、谷歌还是豆包，也都更新了视觉能力，能够直接打开摄像头/屏幕共享并进行语音沟通。

所以哪些场景/功能和智能眼镜搭配更好呢？有几个基础的值得考虑的点：

显示：智能眼镜短期内的信息显示效率不会太高，所以需要屏幕承载大量信息的场景应该规避。比如拍照答题，我们在学习过程中都是语言配合板书/多媒体/草稿纸来解题学习的，AI解题软件其步骤解释等可能需要半个手机屏幕处理，这种显然并不适合用智能眼镜来落地。

模型：前些天我也用ChatGPT测试了一下生活场景，具体过程如下：

也有很多UP主基于多模态做了很多的体验尝试，总的来看，大模型可能更擅长知识类的内容，尤其是一些传统的图片搜索、对话讲解等，但是日常生活中我们会问更多的什么问题呢？多步的生活类的问题还得不到大模型的良好支持，而很多工作/复杂问题或许更会在电脑/手机上进行。

场景：多模态AI的各类演示场景都是在提问，问模型会不会代码、知不知道蜡笔小新、查去火车站需要多久，模型固然能够回答的来，生活中也确实有这些问题，我们可以提问。但如果不聚焦并覆盖实际的场景，只是演示功能点，只是告诉大家随时可以问智能眼镜任何问题，那就走向个极度碎片化、极度依赖模型能力的极端，更适合早期使用者。面向大众，还需要聚焦。家里的小爱被问最多的是“开电视、“天气如何”、“定个闹钟”，而Siri又被问什么呢？我记得之前有一个统计，现在完全找不到了。

更关心实际场景

前面的分析、对比、整理帮助我们更好的理清现状和定位：

第一，眼镜有外观和佩戴成本，要用新价值克服它；
第二，眼镜上耳机/相机/显示能力都有一定的边界限制；
第三，多模态AI有很多可能，但是目前的现状并不完全成熟。

Meta RayBan用两代产品给基础功能划定了及格线，比如电量使用时长、相机拍摄效果、音频能力，同时也在各种社区关注到有用户使用两幅眼镜轮流满足全天使用、对MetaAI的严格限制和更新速度的吐槽、只支持竖屏视频、期望导入之前预览照片选择性导入、各种连接问题等等，这些都是作为外设的基本场景需求，可以从Meta RayBan参考到很多，优化改进。

继续总结一下主要场景/人群：

墨镜：Meta已经验证的场景，前面也一直反复在强调。这里补充一点，从境外主观感受来讲，欧美人几乎人手一副墨镜，而在国内旅游对这一点感受并不强烈，所以国内面向日常近视镜的方向确实更可靠，但难度也更大。
Be My Eyes：一个非常非常有意义的细分方向，科技向善。
骑行/户外：近两年可能骑行是其中的大类，无论是公路自行车还是摩托车，属于多合一的典型场景，眼镜的保护作用+拍摄方便沉浸+音频/通知，挑战在于多样的形态需求（传统的防风/滑雪其实各不相同）、还有电量和录制时长的平衡、运动情境下的抖动优化等。
博主：第一视角录制对于开箱、探店、采访类型的博主是个很好的补充选择，主要考虑录制的清晰度、时长以及和传统拍摄设备素材之间的融合（画面比例/分辨率等等）。
出境游：个人非常看好的垂类场景，面向的群体有一定的消费能力，基本的抓拍、翻译或者导航的实用功能、AI问答科普，在这个场景内都有需求，组合起来形成对场景的完整覆盖。要是续航能够有更好的解决办法，非常有价值。
……未完待续

找准场景，不只是提供能力。

四、新的计算终端和未来

老罗在直播间提到的，人类工具发展史上，满足同等功能的情况下，穿戴式设备一定会打败便携式设备；

iPhone初代发布会的定义，乔布斯说这是一台三合一的设备：an iPod， a phone， and an Internet communicator

能够做到更方便、更多功能这件事本身就是价值，存在的只是价值多大的问题，（谨记）前提是达成满足大众对功能的要求。

下面是放飞时间。

计算机的基本结构是“输入——计算——输出”，计算的CPU从早期的电子管、晶体管到硅片集成电路后，物理底层就没有发生大的变化，只是一直在降低计算的功耗；而在计算机的输入输出历史上，成熟的模态只有三种，视觉、声音、物理，这也是计算机发展的必然，毕竟这三个通路对应着一个人最大的信息输入/输出，观察世界的眼睛、与同伴交流的耳朵/嘴巴、超级灵活的双手。这三种模态各有优劣：

图片截自https://www.timoni.org/work/，推荐，非常好的文章和内容

输入的变革

穿孔卡带、鼠标和图形界面、十字按键和手柄摇杆、多点触控屏幕，每一种硬件终端开拓市场的过程中都少不了与之匹配的高效的输入手段，眼镜发展成新一代的计算终端也必然不会缺少交互的革新。目前智能眼镜的主要交互手段是语音和按键触摸板，从前面各个交互方式的优劣来看，语音并没有办法变成一个系统的主要交互手段，而按键触摸板在如此小的面积下能够支持的功能也非常有限，因此一定有一种更有效、更适合的交互手段还待发掘。

眼镜是一个固定位置的穿戴设备，距离我们的手很远，而手确实我们同计算机交互时最主要的输出手段，因此人们也在不断的探索手势交互、控制器、腕带、戒指等。逐个来看，控制器其实和眼镜穿戴式的本质相违背，第一个被Pass掉；手势交互或者说自然交互，从感官上是强烈依赖触觉的，裸手交互无论在视觉/听觉上做多少文章，总是缺少了一个重要的感官维度，或许需要触觉模拟手套等支持，厚重的手套就又一次和可穿戴相违背，要等待科技进步了；至于戒指，和眼镜腿上的按键触摸板类似，形成更宽的输入通道还无法预见，而如果作为3DoF控制器的话，也受限于人小臂的精确程度/稳定能力，并不好用；腕带则替换或者说和手表融为一体，结合更深度的对神经的感知，或许是一个方向，但是除了演示还没有任何实际的产品。

如上一篇对智能眼镜看法，我依旧会认为采集设备(相机/麦克风)+个人的AI Agent将会未来的核心输入方式，加上跨设备的协同生态，将会为我们带来一种被动但又合乎心意的交互方式。正如老板秘书会安排好出差的航班/去机场的专车、团队伙伴会在需要你参与时安排好会议，AI就像另一个你，拥有意图理解、处理日常事务的能力，比如清晨醒来根据你的习惯播放一首音乐或播报你感兴趣的新闻、出门时帮你计算时间自动叫车、发现到了会议时间而你还赶到的时候帮你自动和参与者说抱歉、健身运动的时候自动帮忙调整训练课程等等。同时，智能眼镜在很长时间内不会让我们不需要手机/电脑，而只是覆盖我们更碎片化的一些需求，或者说生活的助手。

老生常谈的显示

输入通道的拓宽需要庞大的算力，输出通道亦是如此，无处不在的显示并不是要求巨大的屏幕，而是经过复杂计算后给到的精炼的、准确的显示。煮粥的人看向煮粥的锅只是想知道什么时间能好，那就显示一个时间；准备喝粥的人还不知道是什么粥，那就显示是什么粥、什么时间，既不会标准化的显示各种信息，也不会在不合适的地方/时间显示，只和我关心的事情相关。与此同时，也是舒适的显示，并不是悬挂在眼前的屏幕，也不会不停的抖动，可见的未来是一种与我们的日常生活融为一体的轻信息显示；更远的时间才会是更丰富的、更生动的信息载体（这些技术会在MR/VR设备上不断成长，在特定场景使用，最终再完成小型化的蜕变）。期待这样的一天的到来。