近日,月之暗面科技公司重磅推出了其最新的Kimi多模态图片理解API,正式揭开了其基础模型moonshot-v1-vision-preview(以下简称“Vision模型”)的神秘面纱。通过这一创新之举,月之暗面科技再一次拓宽了其动态发展的多模态处理能力。
Vision模型在图像识别方面表现出了无与伦比的卓越成就。无论是食物还是动物,它都能精准捕捉到图像中复杂细节和细微差别。例如,在一个包含16张蓝莓松饼与吉娃娃的测试集里,对于人眼而言难以分辨的图片,Vision模型却能游刃有余,完美地标记出每一张的真实身份。
不仅如此,这款模型在文字识别领域同样大放异彩。它的准确性远超传统的OCR软件,即便是模糊不清的手写内容如收据单或快递单,Vision模型也能轻松识别并理解。设想一下,当我们面对一张学生期末考试分数的柱状图时,Vision模型不仅能准确读取每个科目的分数,甚至还能进一步分析这些分数之间的关系,并解读图表的美学特征。
在计费方面,Vision模型采取灵活的按量收费策略。单张图片的计费是基于1024tokens合并计算,不同版本的模型也有不同的呼叫价格。具体而言,moonshot-v1-8k-vision-preview模型每1M tokens售价为12元,而更高版本的moonshot-v1-32k和moonshot-v1-128k则分别为24元和60元。
此外,Vision模型还具备多轮对话、流式输出等多种强大功能。然而,仍有部分功能未完全支持,比如联网搜索与URL格式的图像上传等,不过公司的努力显然是朝着更加全面的方向迈进。
除了Vision模型的推出,月之暗面科技还在其他方面进行了更新。例如,新增的项目管理功能使用户能够更方便地统一管理和跟踪项目,并允许企业用户多账号认证和切换,大幅提升了使用效率。而资源管理列表的优化显示了公司对用户体验的重视。
可以说,月之暗面科技在技术创新与用户体验上的双重努力使得Kimi API成为了图片理解领域的一款不可或缺的重要工具,也为未来的多模态技术发展奠定了坚实基础。返回搜狐,查看更多