KIMI视觉思考模型到底强不强?公开3轮真实体验和分析
在人工智能技术的不断进步中,Kimi的视觉思考模型K1以其独特的能力吸引了众多关注。本文将带您深入了解K1模型的实际体验,通过三轮真实的测试视频和细致的分析,我们将探索K1在解决复杂问题、解读图表和识别图片内容等方面的强大功能。
Kimi的视觉思考模型 K1已经发布有几天了,有很多的测评和赞美。到底强不强,需要自己去体验一下才行。
今天就体验和测评一下Kimi的这款新能力。
一、入口
进入KimiPC官网,在首页 – 搜索框下,有一个快捷入口。
【Kimi k1 视觉思考模型抢先体验】
二、对话体验界面
中间是对话区域和3个提示问题,如下;
- 接下来我会发你截图,帮我解答图中的题目好吗?
- 接下来我会发你一张复杂图表,请你帮我逐步解读?
- 接下来我会发你食物照片,收到后帮我逐步计算卡路里?
看似默认的预设问题,分别暗示了Kimi的K1思考模型的3个能力层面。
- 解答数学题,很难很难的那种。
- 解读复杂的图表,类似于财报,包含了柱状图、饼图、曲线图、还有表格等各种复杂内容、数字、符号的图表文档等。
- 图片实体内容识别,并解读实体背后的核心逻辑,展现惊人的图片识别和分析能力。
三、Kimi+的名片体验
还有右边的Kimi+的名片,作为产品经理,也是要好好研究一下的,值得玩味。
Kimi 视觉思考版
每个像素,都值得深入思考。基于 k1 视觉思考模型 | 来自 Kimi
文档解读很强大。
支持的文件格式:PDF、Word 文档(DOC、DOCX)、Excel 表格(XLSX)、PPT(PPT、PPTX)、TXT、CSV、MD。
四、测试素材准备
为了顺利测试Kimi的这几个方面的能力,我准备了3张不同的图片,如下:
第一张:超高难度奥数题
第二张:电动汽车充电市场展望分析图
第三张:用AI生成的一盘实物图片
五、Kimi视觉思考模型解奥数题
体验过程,我已经把体验的过程录制成了视频,请观看,可获得更直观的感受。
体验过程中的几点感受:
优点:
- 预设好的问题,埋好了prompt,上传并发送相关图片,即可得到想要的答复,体验很好。
- 响应速度很快,很好,基本不用等待。
- 输出的过程非常详细,这道题很难,我几乎是看不懂,Kimi思考了完整的详细的过程,并连续输出了4分钟,1共59行推理过程,包含文字、数字、和公式。
如果哪位数学大牛懂这道题,可以详细看看Kimi的解答过程是否合理。从多个其他大模型做这道题的过程借结果来看,我感觉Kimi的功底还是挺深的。
缺点:
1、不管是PC端还是APP端,都存在前端公式渲染效果的问题,如下图:
六、Kimi视觉思考模型解读图表
体验过程:
数据错误:
ABB:从6.6下降到0.9,下降幅度非常显著。
结论也稍有问题:
这一部分的下降幅度更为显著,尤其是ABB,其市销率从6.6骤降至0.9。这可能表明这些公司在盈利能力和市场预期方面面临更大的挑战。
七、Kimi视觉思考模型计算图中食物卡路里
体验过程,我已经把体验的过程录制成了视频,请观看,可获得更直观的感受。
Kimi的回答,第一步:
识别图片中的食物,按照主次、大小的一般逻辑描述图中的食物。
第二步:按照识别到的食物,逐一计算卡路里。
计算方式:
1、设定食物类型
2、该种食物单位热量计算
3、估算图中该种食物的分量
4、计算图中该种食物的热量值
第三步:所有食物热量相加,得出总热量值
第四步:自我反思,重新评估,反复确认
以上就是体验的基本情况。
当然还有更多场景没有覆盖,有兴趣的伙伴也可以自己去试试。
还可以给一些潦草的笔记,让Kimi识别后进行思考输出,很有意思。
利用这几点能力,可以帮解决工作和生活中的一些问题。
本文由人人都是产品经理作者【Echo 产品论】,微信公众号:【产品经理的逻辑与审美】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Kimi官网截图
- 目前还没评论,等你发挥!