我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应
我们过去的观点里面:文字是精简的,抽象的;图像和视频体积一个比一个大,因为包含了很多的无效信息
然而 Deepseek 的 OCR 小模型,识别图象是直接用图像 token 而不是文本 token,精简 10 倍以上
也就是说:在 AI 眼里,图像和视频可以比文本更精简
这是反常识的,人类需要适应
猜你喜欢
【10评论】【2点赞】
【3评论】
【15评论】【12点赞】
【22评论】【11点赞】
【2评论】【8点赞】
【1评论】【2点赞】
作者最新文章
热门分类
汽车TOP
汽车最新文章