语音识别关键词,如何获取房产成交信息?

4 评论 4383 浏览 15 收藏 11 分钟

针对房产中介平台无法及时获取成交信息的现象,语音识别关键词的应用能够有效解决这个问题。不过,你知道获取关键词后的筛选与识别是怎么做的吗?正文将为你揭晓答案。

近年来随着互联网、GPU/CPU硬件的发展,语音识别的准确率有了很高的提升,并开始在商业上进行应用。不管是国内百度的小度助手,还是Google Assistant、亚马逊Alexa,早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进,几乎所有的互联网巨头都对语音势在必得。

人工智能慢慢步入了我们的生活,为我们带来便利的工具值得去挖掘。语音识别技术在房产市场是如何应用的呢?除了语音助手外,期望能通过语音识别功能帮助业务提升效率。本文复盘了语音识别关键词在房产中的应用,以此总结项目中的收获和不足,也期待对您有所帮助。

平台供给房源,但房源成交后,不能及时获取成交信息。所以需要从房主、经纪人、平台三方去考虑如何获取到成交信息:

  • 从房主切入,可以在房主小程序/APP提供房主停售的入口,也可以通过短信或者模板消息触达到房主,提醒房主若有成交,及时反馈给平台。
  • 从经纪人切入,可以提供反馈机制,通过成功反馈赠送积分的方式,激励经纪人主动反馈。
  • 从平台切入,平台已通过阿里的虚拟号,获得经纪人和房主的通话录音,可通过语音转文字识别出疑似成交的房源。

语音转文字

为保护房主隐私,平台从阿里购得AXB中间号,阿里提供通话录音及转文字功能,识别的文字通过接口回调到平台,依赖于阿里转文字效率,所以文字识别会有时间延迟,在识别策略中,会考虑时间的因素。有了文字后,下一步要提取关键词,识别成交房源。

关键词识别分析

1. 目标:通过录音关键词识别出成交的房源。

2. 指标:召回率和准确率是对策略质量评估的方法,可以通过召回率、准确率、误判率等检验上线后的质量评估。召回率代表策略对问题的解决程度,而准确率、误判率代表策略有没有带来其他伤害。

 召回率=识别总数/理想成交数 准确率=识别成交数/理想成交数 误判率=误判数/识别总数

3. 影响因素:

  • ①录音转文字的准确度
  • ②关键词的准确度
  • ③经纪人拨打电话的频次

①和③受外部因素制约,本次版本暂时不考虑,重心放至关键词的准确度上。

4. 需要人工干预:由于以上三个制约因素,识别的结果不一定100%准确,平台需要安排专职人员对识别结果进行人工判断,防止误判。

提取关键词

拉取3000条录音转文字数据,用Excel初步分析,过滤不需要的重复词,例如语音词、象声词、问候词等,再用Wordart(https://wordart.com/)分析,找到关键词。

1.0版本

1. 关键字提取时间:通话录音转换文字成功后,每30min对未处理的内容识别一次。

2. 识别策略:若录音内容中,涉及如下关键字,则认为该录音命中“疑似成交”关键词。

  • ①卖完
  • ②已经卖了
  • ③暂时不卖
  • ④我不卖了
  • ⑤卖了好久了
  • ⑥早都卖了

3. 增加人为审核操作,并记录处理人和处理时间

4. 识别结果中展示识别文本和录音,可随时校验结果

策略质量评估

1. 召回率、准确率和误判率分析

对上线后一天的数据进行了分析,召回了25条数据,其中19条命中成交,6条误判,还有7条数据没有识别出。

对误判数据进行分析,“卖完”这个关键词出现在误判里的频次很高,针对该关键词,下一步需要优化识别策略。

对未识别数据进行分析,“卖了”这个关键词出现的频次很大,但这个关键词争议较大,会出现在经纪人的问话中,例如:“您卖了吗?”如果用它识别,误判率会很高。

2. 功能问题

①同一房源存在多条录音,每条录音都要处理,较繁琐。

②平台上房源下架有统一接口,所以审核和下架是两个分开的功能操作,审核房源后,遵循排序规则:待处理>已处理,数据自动下沉,寻找当前房源做下架处理较繁琐。

③处理状态没有显示在列表上,不能直观看见处理结果。

1.1版本

1. 规则优化

针对1.0上线,拉了1000条录音进行分析,发现显性关键词命中率很高,所以优先判断显性关键词,若无显性关键词,通过非显性关键词和时间维度去判断,一般房子卖了,经纪人的通话都会很短。

①判断文字中是否有以下关键词,若有,则认为疑似成交:

已经卖了、暂时不卖、我不卖了、卖了好久了、早都卖了、先不卖了、不想卖了

②若无上述关键词,则判断语音时长,若时长<1min,且包含下列关键词,则认为疑似成交:

不卖了、卖了、卖完、没有了、撤了、下架、取消

2. 功能优化

(1)状态优化:列表显示状态“未处理、已成交、未成交”3种。

(2)若一个房源有多条未处理的数据,处理最近时间的一条,该房源所有之前未处理的数据状态变更为相应的状态,处理时间&处理人同理。

(3)列表刷新逻辑优化:完成“审核”后不刷新列表,仅变更状态、处理人、处理时间等相关数据。再次进入菜单,才刷新整个页面。

策略质量评估

召回率、准确率和误判率分析

对上线后一天的数据进行了分析,召回了26条数据,其中12条命中成交,14条误判,还有1条数据没有识别出。

通过上面的数据发现:增加非显性关键词+时间的识别,准确率增加,但是也召回了很多非成交数据,所以误判率也增高。虽然满足宁可错杀一千,也不能漏一个的原则,但还会拉更多的数据进行分析,优化时间维度的策略。

上述案例中,通过优化关键词策略,提高召回率,运用了策略质量评估方法,判断召回造成的影响,下一步要降低误判率。

在实际操作中,录音转文字的准确度影响也很大(见上图),我们也做了相关的数据统计,在未识别数据中,有30%的数据属于文字准确度不高导致的,这个无法避免,机器对噪音的抗噪性不够强,另外,语音识别并没有理解语义,若双方都用方言讲话,识别的准确率会更低。

语音识别,在这几年有了极大的发展,从算法到模型都有了质的变化,在加上语音领域(语音合成等)的其他研究,语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。本项目借助语音识别技术转文字,再通过文字关键词识别出成交房源,让语音识别在房产市场得到应用。

专栏作家

余田,人人都是产品经理专栏作家,数据产品经理,《用户至上-用户研究方法与实践》译者。

本文原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 我是不会给你这个权限的

    来自云南 回复
  2. 学习了~感觉还挺好玩

    来自北京 回复
  3. 学习了

    来自重庆 回复
    1. 😳 共同进步

      来自辽宁 回复