国内目前几个主流模型都不支持多模态,想利用本地的小模型来支持多模态解析,但是通不过,目前的方式只能通过codex的子代理来处理这种需求,主要体现是CodexPlusPlus直接将codex中的图片发给了接入模型导致对话挂死,程序奔溃,能不能搞个中间层先处理图片部分的内容,在用接入模型接受纯文字的输入。让codex更加接近原生用法,而不是用子代理来处理这样的问题。
国内目前几个主流模型都不支持多模态,想利用本地的小模型来支持多模态解析,但是通不过,目前的方式只能通过codex的子代理来处理这种需求,主要体现是CodexPlusPlus直接将codex中的图片发给了接入模型导致对话挂死,程序奔溃,能不能搞个中间层先处理图片部分的内容,在用接入模型接受纯文字的输入。让codex更加接近原生用法,而不是用子代理来处理这样的问题。