月之暗面推出Kimi API：揭秘多模态图片理解模型的强大功能_Vision_tokens

近日，月之暗面科技公司重磅推出了其最新的Kimi多模态图片理解API，正式揭开了其基础模型moonshot-v1-vision-preview（以下简称“Vision模型”）的神秘面纱。通过这一创新之举，月之暗面科技再一次拓宽了其动态发展的多模态处理能力。

Vision模型在图像识别方面表现出了无与伦比的卓越成就。无论是食物还是动物，它都能精准捕捉到图像中复杂细节和细微差别。例如，在一个包含16张蓝莓松饼与吉娃娃的测试集里，对于人眼而言难以分辨的图片，Vision模型却能游刃有余，完美地标记出每一张的真实身份。

不仅如此，这款模型在文字识别领域同样大放异彩。它的准确性远超传统的OCR软件，即便是模糊不清的手写内容如收据单或快递单，Vision模型也能轻松识别并理解。设想一下，当我们面对一张学生期末考试分数的柱状图时，Vision模型不仅能准确读取每个科目的分数，甚至还能进一步分析这些分数之间的关系，并解读图表的美学特征。

在计费方面，Vision模型采取灵活的按量收费策略。单张图片的计费是基于1024tokens合并计算，不同版本的模型也有不同的呼叫价格。具体而言，moonshot-v1-8k-vision-preview模型每1M tokens售价为12元，而更高版本的moonshot-v1-32k和moonshot-v1-128k则分别为24元和60元。

此外，Vision模型还具备多轮对话、流式输出等多种强大功能。然而，仍有部分功能未完全支持，比如联网搜索与URL格式的图像上传等，不过公司的努力显然是朝着更加全面的方向迈进。

除了Vision模型的推出，月之暗面科技还在其他方面进行了更新。例如，新增的项目管理功能使用户能够更方便地统一管理和跟踪项目，并允许企业用户多账号认证和切换，大幅提升了使用效率。而资源管理列表的优化显示了公司对用户体验的重视。

可以说，月之暗面科技在技术创新与用户体验上的双重努力使得Kimi API成为了图片理解领域的一款不可或缺的重要工具，也为未来的多模态技术发展奠定了坚实基础。返回搜狐，查看更多