在周末这两天里,我沉迷上了一款堪称神奇的 AI 应用,而且正如标题里说的那样,这个 AI 应用曾经让作者月入 2 万,却在今天彻底免费开源了。 好用、免费、开源、安全、高效等等,当这些褒义词汇总到了一款 App 身上,不推荐确实说不过去。 至于这款工具是干什么的?容我卖个关子,让我们先从熟悉的地方讲起—— 不知道大家有没有想过这个问题,自去年爆火,今年出圈的 AI 绘画,是怎么能听懂人话的,更直白点说,它是怎么把文字描述跟图片本身挂上钩的呢? 我们不去说那些枯燥技术上的细枝末节,但要知道核心功臣是 OpenAI 推出的 CLIP 模型。 简单说,CLIP 可以把一串文字描述变换成一串数,也可以把一张图片变换成一串数,两串数据之间的计算,让文字和图片产生了关联。 那反过来说,我有了图片,能不能根据文字去精准查找呢? 缘起于 AI 绘画,让一位从事机器学习领域的开发者接触到了 CLIP。 这位作者先是在电脑上验证了 CLIP 应用于图片搜索的思路,因为搜图效果远好于谷歌,作者有了一个新想法—— 何不把 CLIP 封装到手机里? 寻隐/Queryable 自此诞生,在发布当天占领了全部欧洲国家工具榜 TOP 1 ,拿捏了美国工具榜 TOP 2 的好成绩。 寻隐 相信大家或多或少都碰到过这样的问题,哪怕不是天天拍照,但日积月累下,相册里的照片总是越堆越多。 手机自带的相册给力也就罢了,但搜索功能总是一言难尽,至少做不到指哪打哪,但,寻隐可以。 PS:感谢朋友提供的素材。。。
第三方确实也有做相册搜索服务的 App,可问题是少不了向你索要权限并且联网,一方面是传统索引方式需要,另一方面则是好收费,但,寻隐可以。 是的,寻隐压根就不要联网权限,模型的应用是完全本地化的,何况软件本身也已经开源,隐私安全可以信任。 为了用户的隐私安全,作者大大可没少掉头发,主要原因,出在了 CLIP 模型上—— 现在的 AI 绘画是不支持直接中文输入的,都是调用了翻译工具的 API 变相实现的中文输入,但寻隐要这么搞,可就和不联网没关系了。 开源社区里不是没有中文 CLIP 项目,但最小的体积也是 700M+,完整版模型的体积更是按 GB 算的。 而现在的寻隐本身只有 289.3M,不是黑科技,而是作者大大下场自己训练了一个模型,并因为存储格式不同,又拿苹果开发的 Swift 语言重写了一遍。 那用这种 AI 工具肯定很慢吧?我最初是这样想的,但我自己使用起来,真就主打一手快准狠,按作者的介绍,对 1 万张图的单次检索,耗时可以不到 1s。 下面就到了具体展示效果的环节了。 效果 初次打开寻隐,需要经历这个 App 最耗时的一个环节:为相册构建索引。 给它访问相册的权限后,一次100张,5422 张照片大概花了 1 分钟左右的时间,按作者说,最新的 iPhone 可以平均 10000 张/分钟的速度建立索引。 然后,就没有然后了,搜就完事了—— 你可以搜具体的物件: 可以搜一个场景下出现的物件,模糊一点也没关系: 保存的壁纸也 OK: 描述词越多,搜索越准确: 描述词这里,还能是一个动作: 可以是一种颜色: 甚至是一个场景: 甚至抽象一点都没关系,寻隐很会给人惊喜。 PS:再次感谢朋友提供的素材。 当然,搜索结果不止一张图,你的整个相册是都做了索引的,寻隐会根据相似度,把照片展示到下面: 真的,多试试寻隐,它的搜索表现总是出乎我意料。 当然,不敢保证说寻隐 100% 能找到你要的那张图,只是在测试的两天里,寻隐的精准度是真的很强。 而且作者在介绍页专门有提到,和一切同类应用不同,寻隐鼓励使用复杂的长句描述,描述越精准,结果越可靠。 至于为什么这么说,感兴趣的小伙伴可以了解一下 CLIP 模型的工作原理,无论短词还是长句,寻隐很好用。 结语 或许你发现了,上面所有的截图都是 iPhone,因为寻隐只上架了 App Store,而且需要 iOS 16 及以上。 原因嘛,作者大大并非 iOS 开发,也不是 Android 开发,只是因为自己用的苹果手机,加上苹果官方最先下场验证了 AI 绘画移植到 iOS 的可能性,这才让寻隐面世。 不过安卓老哥也别急,毕竟作者开源了寻隐,安卓版寻隐不会太远,到时候有了我会第一时间 cue 大家的。 话说回来,这么一款好用、免费、开源、安全、高效的工具,谁又能不爱呢?条件合适的小伙伴们快去试试吧。 |
|