GPT开放多模态能力，能读懂电路图、读懂手写草稿_多模态吧

多模态吧关注：73贴子：238

1回复贴，共1页

GPT开放多模态能力，能读懂电路图、读懂手写草稿

GPT的多模态能力在GPT4首次发布会时就已经展示，但之后很长一段时间都没有对外开放其多模态能力。现在GPT的多模态能力终于要向公众开放了。
多模态能力的GPT模型引入了图片理解的功能，会以-V为后缀标识，代表着视觉（Vision）。
GPT4在你发给说明书图片后，读懂说明书，也能在你拍一张照片并圈出你想问的物体后准确回答，甚至能读懂手写的流程草稿、概念图，乃至电路图等等。其中原本只有人类能识别的验证码可能也将被GPT4轻松破解。
可以预见，拥有多模态能力加持的GPT会对不少行业造成巨大的改变。比如发给GPT网页界面截图，GPT4轻松就能给出前端代码呢？比如让GPT作为售后客服，可以轻松处理用户发来的图片及问题呢？
GPT多模态模型指明了大模型的未来发展方向，纯粹的文本语言模型已经落伍了，未来必然是多模态的时代。