端侧AI越来越近了,面壁智能发布并开源 MiniCPM-o 2.6。它参数规模仅 8B ,却在视觉、语音、多模态方面性能与 GPT-4o-202405 相当。支持双语实时语音对话、声音配置及情绪等控制,能语音克隆、角色扮演。视觉能力也有提升,如 OCR、多语言支持、视频理解。因其 token 密度优越,首次可在 iPad 等端侧设备实现多模态实时流!
端侧AI越来越近了,面壁智能发布并开源 MiniCPM-o 2.6。它参数规模仅 8B ,却在视觉、语音、多模态方面性能与 GPT-4o-202405 相当。支持双语实时语音对话、声音配置及情绪等控制,能语音克隆、角色扮演。视觉能力也有提升,如 OCR、多语言支持、视频理解。因其 token 密度优越,首次可在 iPad 等端侧设备实现多模态实时流!