关于国内模型接入的多模态识别的问题

国内目前几个主流模型都不支持多模态，想利用本地的小模型来支持多模态解析，但是通不过，目前的方式只能通过codex的子代理来处理这种需求，主要体现是CodexPlusPlus直接将codex中的图片发给了接入模型导致对话挂死，程序奔溃，能不能搞个中间层先处理图片部分的内容，在用接入模型接受纯文字的输入。让codex更加接近原生用法，而不是用子代理来处理这样的问题。