多模态吧 关注:73贴子:238
  • 1回复贴,共1

GPT开放多模态能力,能读懂电路图、读懂手写草稿

只看楼主收藏回复

GPT的多模态能力在GPT4首次发布会时就已经展示,但之后很长一段时间都没有对外开放其多模态能力。现在GPT的多模态能力终于要向公众开放了。
多模态能力的GPT模型引入了图片理解的功能,会以-V为后缀标识,代表着视觉(Vision)。
GPT4在你发给说明书图片后,读懂说明书,也能在你拍一张照片并圈出你想问的物体后准确回答,甚至能读懂手写的流程草稿、概念图,乃至电路图等等。其中原本只有人类能识别的验证码可能也将被GPT4轻松破解。
可以预见,拥有多模态能力加持的GPT会对不少行业造成巨大的改变。比如发给GPT网页界面截图,GPT4轻松就能给出前端代码呢?比如让GPT作为售后客服,可以轻松处理用户发来的图片及问题呢?
GPT多模态模型指明了大模型的未来发展方向,纯粹的文本语言模型已经落伍了,未来必然是多模态的时代。




IP属地:黑龙江来自Android客户端1楼2023-09-30 14:18回复
    通过欺骗GPT的方式,绕过GPT不能回答验证码的安全限制,成功破解验证码。



    IP属地:黑龙江来自Android客户端2楼2023-10-02 12:41
    回复