AI产品分析（三）：详解作业帮“拍照搜题”功能逻辑和技术原理

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

AI产品分析（三）：详解作业帮“拍照搜题”功能逻辑和技术原理

Luna

2019-04-29

1 评论 30814 浏览 118 收藏

今天一起体验作业帮“拍照搜题”功能，从实际产品使用流程中切实感受AI技术如何为教育创造更多可能~

前两期对抖音和美图的体验，让我们见证了计算机视觉技术带给人类生活感官及娱乐的刺激，本期我们对作业帮进行体验，感受AI对教育的助推。

作业帮是一款以“拍照搜题”为核心功能的在线教育产品，该功能的实现主要运用了OCR和深度学习技术，故本文围绕该项功能的体验，结合简要的技术分析，领略作业帮化身“AI小叮当”的魅力，话不多说，开始本期的旅程吧~

1. 产品概况

作业帮是一款以拍照搜题、课程辅导为核心功能的K12教育产品，该产品主要面向的是K12阶段的学生、家长及老师人群，其中学生人群为主。

如图，根据七麦数据的实时榜单排名显示，作业帮在畅销榜中排名第二，而在免费榜单中排名第五。

值得注意的是，这是所有教育主题下的产品排名，若仅考虑K12教育范畴，作业帮是当之无愧的“小霸王”。

这也间接说明了，作业帮在明确的产品定位下，为学生解决了习题答案搜索、学习辅导等问题，并且提供了相对竞品而言更为优良的用户体验。

同时，根据艾瑞数据显示（图中垂直坐标轴单位为万台），作业帮的月活，和同类型的产品如小猿搜题、学霸君相比之下，其排名为第一，且领先的优势比较明显。

如图，作业帮的月活平均值为8478万台，而小猿搜题为1618万台，二者相差的距离较远，仅从日活的角度来看，作业帮的日活值也达到小猿搜题的5倍，进一步证明作业帮在同类型产品中具有较强的竞争力。

通常，我们衡量一个工具类的产品好坏，除利用榜单排名外，月活和日活是更为重要的指标。

则结合上述数据分析可见，在线教育的服务需求中，作业帮向用户交出了一份满意的答案。而作业帮获得的良好口碑，与拍照搜题这一核心功能功能精益求精的良好性能与优秀的用户体验密不可分。

为了进一步认识拍照搜题功能及其背后的相关技术原理，以下将从拍照搜题功能项的用户-场景-需求分析、功能目的、功能逻辑、用户评论等方面进行剖析，并结合技术给出最终的体验结论。

2. 用户-场景-需求分析

可见，作业帮的主要用户可分为学生、家长及老师，其中以学生群体为主。

为了更形象地说明拍照搜题功能的意义，我们讲三个典型的用户故事。

故事1：

小A是一名高三的学生，正面临严峻的升学压力。平时在家自己写作业时，如果遇到不会的题，他会直接打开作业帮，不用手动输入，直接拍照搜索同类型的题，既不会耽误时间，又能及时理清楚当天所学的知识点。偶尔，如果课堂上老师讲题的思路他不清楚，回家也会自己拍照，然后看看平台上别人的解题思路就豁然开朗了。

此外，高三了很多知识点需要不断地强化巩固，所以他还有一个高效学习的小窍门，那就是拍照搜题之后，通过举一反三对同类型的题目进行反复练习，一次性吃透知识点。

更重要的，因为处于一个教育水平相对落后的县城，而平台上围绕拍照搜题，还可以选择一些名校名师来帮助解答或观看对应的解题视频，帮助自己见识到更简便的解法，感觉作业帮的搜题功能太方便了，简直就是自己的“小叮当”。

故事2：

老王是小A的爸爸，文化程度较低，平时大部分时间都在忙工作，尽管如此经济也是捉襟见肘，他希望小A可以好好读书，将来摆脱和自己一样的生活困境。老师给小A介绍了一款应用软件叫作业帮，帮助他解决了辅导孩子的无力感，同时直接拍照搜题，可以节省时间，安排也很灵活，同时在线教育更为经济，也为家里节约了很多补习费。

还有的时候老王辅导小A的妹妹小B写小学作业，也不用自己输入百度之后搜索那么麻烦了，直接拍照就可以看到答案后再辅导孩子，体验很不错，所以现在他逢人就推荐作业帮。

故事3：

陈老师是小王的班主任，在小县城任教，有比较多空余时间，但是工资比较低。工作闲暇之余，陈老师还在作业帮上为学生们答疑解惑，比如对学生拍照搜题的结果，如果还不理解，就换种思路帮助继续解答，或者帮助一些孩子进行强化学习和训练，这样既可以继续发挥自己的教学价值，还能赚取一部分的额外收入，所以陈老师也很心水作业帮~

3. 功能目的

结合用户-需求-场景及用户故事，我们可以很清楚地看到，作业帮作为一个K12阶段相对成功的在线教育产品，依托于人工智能技术的发展，为广大的学生、家长和老师带来了便利。

对于学生而言，遇到不会的题目或含糊不清的知识点，作业帮的拍照搜题，使得孩子们可以不用受困于老师不在身边、家长无力辅导或逐文字输入搜索的困境。同时该功能的外延还可以帮助学生强化知识点，学会举一反三，甚至因为平台上对学生的问题还提供了名校名师答疑解惑的选项，一定程度上可以缓解教育资源不平衡的矛盾。

而对于家长而言，作业帮的拍照搜题帮助他们缓解了自身文化程度不高无法辅导孩子的无力感，同时帮助工作忙的家长节省了时间，也替经济条件有限的家长省了钱。
而对教师用户而言，作业帮也为他们价值和利益最大化提供了一个平台。
对作业帮而言，拍照搜题的提出，是迎合AI时代对教育的一种创新，同时为计算机视觉技术的落地提供了良好的落地契机，为传统教育的改革带来了新的方向。

而随着平台的不断成熟，围绕着拍照搜题，作业帮进一步开拓了课程辅导、学习圈等功能，进一步提升了作业帮的服务。但不可否认的是，拍照搜题仍然是作业帮的亮点，而且作业帮的发展战略，也一直立足于不断地提升后台算法对题目照片的识别的准确率及题库的完备率，也因此才得以维持向上的发展劲头。

传统意义上的产品设计，强调功能主次鲜明的重要性，而从当前对人工智能类的产品体验中也可以看出，该原则对AI类产品亦同样重要。

算法、技术可以有千千万万种，用户可能遍布天涯海角，但作为一个产品，尤其是工具类的产品，如果本身核心功能不够出众，或在后续的完善中偏离了核心功能轨道，只有死路一条。而从人工智能发展的角度来看，算法准确率的提升和优化是一个不均衡的过程。

比如，起步的时候，可能随便加大训练数据数量或者是调整学习参数或训练的方式，算法提升的效果就很明显，因为说到底，所谓的人工智能，还是利用了计算机超强的存储及快速暴力求解的能力。

但随着不断地推进，面对的数据越来越复杂、用户场景越来越多、需求越来越丰富，算法还想提升，哪怕那么一个百分点，都是十分困难的，这也是所有人工智能类产品在迭代进程中都会面临的问题。

但是我们从作业帮拍照搜题的识别越来越准确，用户体验也越来越好，可以看到作业帮一直在坚持后台算法的迭代和优化，这种对初衷的坚持是算法之外更可贵的产品精神。

4. 功能逻辑

【AI产品】超长文详解作业帮产品逻辑和技术原理

从中可见，在拍照的过程中，做出了两个比较明显的限制。

第一个是横屏拍照，保持题目处于图片的特定区域，其目的在于减少后续识别算法处理的难度。其次是对拍摄灯光的要求，因为当光线较暗时，图片不够清晰，则后期的文字识别会出问题，不利于最终的识别准确率。

这是用户体验和算法准确性之间的一种权衡，更人性化的产品设计提倡，尽量减少对用户的要求，增加用户使用的自由性。

然而对于人工智能算法类的产品设计而言，其准确率的获得往往需基于一定的前提，一旦打破这些限制，算法识别的效果可能就会十分差劲，则会带给用户更糟糕的影响。

以下是实际体验的一个过程截图：

基于上述体验，可见拍照搜题技术，已经取得了可接受的成效。

为了增加对算法识别的难度，体验中我们特别使用手写题目，而从搜索的结果来看，返回结果中的5道题与原图的相似度很高，说明文字识别及后续文字特征匹配的准确率达到了可应用的程度。

同时我们还尝试了将两道题放在一起拍，则画面中占比较大的题目也可以检索得到很好的输出，这进一步说明，算法在处理的过程中，对于文字的切割比较准确。但是，体验中也发现了一些不足。

比如：题目拍摄的要求较高，尤其是屏幕中限定的框大小是固定的，而有的时候搜索的题目长短不一，所以大部分情况下难以在平台给定的小框内容纳题目，所以只能拍摄题目的关键部分，如果一次识别不准确就要反复尝试，直到找到或放弃，增加了用户操作的成本。

这是由于后台算法的灵活度还不够决定的。

其实我们需要更多地理解，这不是产品本身设计死板，而是因为现有的机器学习或深度学习算法，本身仍比较机械。比如：很多神经网络的输入，都有固定大小的需求，一些算法也仅仅对达到某些条件的图片处理才能获得良好的准确率，同时AI类的产品设计又缺乏足够的经验积累。

这或许会在未来随着深度学习进一步发展，算法具有更强的推理和学习能力后，可以一定程度上增加产品设计的灵活度。

再比如：针对少数部分文字描述，而题意的表达主要依靠示意图的数学题，体验过程中我们尝试只拍摄题目的图片，此时系统大概率下无法检索。也就是说，出现“图中图”的情况，算法识别准确率较差。

这可能是因为系统基于OCR和深度学习的方法，主要对文字切割进行处理，但是对图像特征的处理比较欠缺，所以检索效果较差。

则上述问题的解决，可通过多种技术方案融合，应对不同用户场景需求的特定任务处理，增强算法应用的鲁棒性，减少算法失灵的情况，这应当也是未来人工智能产品落地的一个重要关注点。

最后，还有一个小问题，有时拍摄上传数学类的题目，返回的结果中可能还包含物理、化学、英语等结果，我们将这类错误姑且称之为跨学科错误。

这也是可以理解的，因为算法更关注于对拍摄题目的文字识别，并在之后以文字特征的相近性作为主要指标，进行搜索结果返回。如此，只要题目描述和题库文本更相似就会作为结果返回，却忽略题目类别的考虑。

关于这个问题的解决，或许可以考虑，在识别的过程中，增加类别标签，如拍摄题目上传之后，可以通过用户设定题目类标签。比如：属于语文、数学、英语等，则上传之后在特定的范围检索，这一方面可以提高算法检索的效率，另一方面也可以减少跨学科返回的错误。

（这一步在技术上看来是可行，而且增加的成本也只是用户上传的时候多了一个打标签的操作，但是却可以上传之后，结合这个标签减少检索的范围，同时减少跨学科返回的错误，而且后面做用户评论分析分析这个问题还是槽点比较多地一个，那为什么作业帮不做呢？我想不明白~）

5. 用户评论

作业帮自上线以来，收获的口碑不错，根据七麦数据显示其IOS市场下评分结果如图：

总体评分达到4.6，好评率较高，同时为了进一步发现该应用仍存在的问题，我们搜集相关用户评论共30条，其中部分用户数据统计截图如下：

【AI产品】超长文详解作业帮产品逻辑和技术原理

30条数据中，1、2、3、5等级对应的数据量分别为20、3、2、5条，其中以低分差评为主，更利于我们发现产品的问题。

则对用户数据进行关键词提取后，发现其基本占比如图所示。

我们将用户对问题的描述，提取出对应的关键词进行归类以便后续进行归因分析。

首先是结果问题，主要包含的描述如搜不到题目、搜出来的题目与用户需求不符合、答案解析有误等，占比较高达36.7%。
其次是闪退问题，约16.7%的用户反映在拍照搜题的的使用过程中会出现闪退问题，也属于一个高频问题。
最后拍摄问题，同样地也有16.7%的用户反映，拍摄的过程中存在拍摄困难、横屏适配的问题。

同时跨学科问题也比较明显，它是指用户拍摄数学题，结果检索出来英文题目，这是比较刺激用户体验一种存在，用户直观看来会觉得系统无疑是“人工智障”。

此外还有抄袭问题，它主要反映了由于拍照搜题的便利性的同时带来了孩子不加思考、直接抄袭的弊端，占比达6.7%，这背后也反映出技术的双刃性。

产品，既要宠着上帝，还要冒着被抛弃的风险“管管上帝”，要秃头~

【AI产品】超长文详解作业帮产品逻辑和技术原理

我们将最终问题产生的原因主要归类为算法准确率、产品设计、产品运营、产品bug。

首先针对结果问题，如搜题不准确、跨学科问题等都是由于平台算法不够精准、鲁棒性差而引起的一种搜索结果返回失误，该原因也是最为重要的一个，而且也是大部分人工智能产品普遍存在的问题。

因为对于AI类的产品而言，算法准确率及稳定性直接影响了产品的使用体验。虽然目前有一些优秀的产品细节设计可以缓解用户对准确率的矛盾，但是效果并不明显，而该类问题的解决只能依赖于对算法的进一步强化训练及参数调节。

题目拍摄过程中存在的横屏问题，则属于产品设计的范畴，需要产品人员充分理解算法的应用的基础，而后结合用户的使用流程进行功能设计的优化可以改善。

其它类似于产品运营、题库、产品bug的问题，同样需要产品及运营人员发现之后，及时展开具体调研并制定相应的方案去进行解决。

6. 技术分析

拍照搜题功能，从技术的实现角度上来看，主要有两种方式。

第一种方式是以图搜图。即平台中的题库同样按照图片方式存储，则当平台处理一个用户拍摄上传的解题需求时，算法通过计算用户题目图片的特征，并进行搜索排序，从题库中找到对应的最相似特征的图片，则该图片即为用户所搜索的题目。

这种方案本质上是基于计算机视觉特征与机器学习算法的匹配检索技术。

但这种方式的不足在于，一方面系统的题库需要以图片的形式存储，消耗的硬件空间较大，而且计算效率较低，性价比较低。

另一方面，对于两道题目而言，基于图片维度特征的比对，进而界定文字题目的相似度，和直接基于文本特征进行题目相似度的比对，必然还是后者的准确率要更为可靠。

因而，作业帮采用的是另一种基于OCR技术和深度学习结合的技术方案。

OCR（Optical Character Recognition），指的是电子设备（如扫描仪或数码相机）检查纸上的字符，通过检测暗、亮的模式确定其形状，而后利用字符识别方法将形状翻译成计算机文字描述的过程。

通俗地讲，就是针对印刷体字符，采用光学方式，将纸质文档中的文字转换为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进行加工的一项技术。

则基于上述定义，拍照搜题的过程，就是首先利用OCR，将图片中的题目处理识别成文字，而后根据用户的题目文本和平台数据库中的题库比对，找到最为相似的TOP 5（作业帮提供5个选项）。

OCR处理的过程主要包括以下几个：

（1）图像输入及预处理：针对不同格式的图像输入，进行必要的预处理。

预处理过程首先进行二值化，即将彩色图像转换为黑白图像，主要是为了剔除掉一些冗余特征，只留下重要的特征。

其次进行噪声去除。因为图片二值化之后，可能在图片中出现很多小黑点或其它噪声类的附着，会影响后续的识别，所以要进行必要的过滤处理。

最后进行倾斜校正。因为用户在拍照的过程中，可能出于拍摄的技术、环境等客观因素的影响，照片的角度不利于最终的识别，因此需要进行必要的倾斜校正以保证图片水平。

（2）版面分析：直观来讲，这一步就是对图片中的文本进行段落、每一行的切分。

（3）字符切割：将图片按照行和列进行划分，则切割后字符就变成了自己一个字。

（4）字符识别：通过机器学习或深度学习，进行文字的识别。

（5）版面恢复：对识别后的文字，保持段落、行及文字间的相对位置不变。

而在文字识别的过程中，目前更为常用的方法是基于深度学习算法。深度学习算法识别单个文字的过程如图所示：

如图，经过OCR预处理并分割之后，对一个文字而言，基于深度学习方法的识别，首先对其进行卷积操作提取特征，而后进行下采样操作，保留更重要的特征，而后继续进行卷积和下采样操作之后，将最后一层下采样操作获得的特征输送至全连接层进行处理并最终输出其概率分布，从中可见，最终以98%的置信度对当前文字判定为“运”。

对其它文字的识别亦同理，当前基于深度学习的文字识别，算法准确率通常达到99%以上。

技术关键词：OCR 深度学习识别文字。

7. 功能扩展

同时，基于相近的技术，作业帮对应用进行了扩展。

他们为了满足家长批改作业、辅导孩子的需求，进一步开发了具有针对性的家长端。

在家长端，主打的特色功能是口算批改和作文搜索，则该需求的指向性更为明显，背后的技术原理和流程本质上和作业帮也是比较相似的，但家长版的整体体验更加简洁，因为对于家长而言，更多的是起到辅助和陪伴的角色。

具体的体验在这里就不赘述了，感兴趣的小伙伴可私底下悄咪咪去体验一把。

在这里特别提及家长版是因为，在体验AI类产品的过程中发现，其实人工智能产品的设计中和传统的产品设计还是有很多类似的地方。归结到底还是对用户需求的把握，有的时候基于同一项或相近的技术，可以解决很多用户的不同需求。所以有的时候，如果产品设计人员过度重视算法和技术实现的细节反而会使得我们忽略了用户的需求。

换一个角度，许多人说目前人工智能算法的应用，其瓶颈在于找到落地的场景作为切入点。那么我想对这些产品分析体验的过程，就是要求产品或技术人员结合用户-场景-需求及功能目的、功能逻辑的分析之后可以懂得——

某一些算法通过运用什么样的流程设计，解决了哪些人的哪些问题，从而当面临新的需求时，学会迁移借鉴某些产品已经验证过的算法及功能流程的设计，这样的体验可能才具有价值，希望我们可以努力把这件事做得更好！