据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。
华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌(图1)▲图源Monkey项目的GitHub页面