首页 > 代码库 > 读图时代,专业图片素材搜索引擎的构造方法漫谈。

读图时代,专业图片素材搜索引擎的构造方法漫谈。

      用搜索引擎这个标题,可能太大,但是在这个信息爆炸的时代,专业的搜索引擎越来越有必要。我个人做图片也有10年的历史了,想想从最初都购买素材光盘的时代,到现在使用搜索引擎搜索图片素材,两者其实各有优缺点,购买的素材光盘都是经过整理的非常规范有序,缺点是素材容量有限,而且还需要付费,而使用搜索引擎可以搜索到海量的图片素材,大部分还是免费的,但是在如今这个信息化的时代,在海量垃圾信息的干扰下,获得真实有效的图片素材的时间成本越来越高了。由于当前的图片搜索主要是依靠图片的相关描述来的,所以经常会出现我们使用文字关键词检索的图片信息很难被我们找到,翻个数十页,依然找不到自己心仪的图片。

      百度的图片搜索 image.baidu.com  面对的用户非常广泛,问题的复杂度过高,导致他不可能给出一个专业的回复,比如如果用户搜一头牛,百度一定会挑出上百万张各式各样的牛的照片给用户;但是面对专业的设计师,他们需要的只是一张背景单一点的牛的素材。所以百度是为全人类服务的,不可能单为设计师提供准确的搜索结果,因为他不知道电脑前坐的是一个要找素材的设计师,所以我们的设计师需要一个专业的图片素材的搜索引擎。

      如何构造一个专业的图片搜索引擎?正如开头我所说的,这个标题取得有点大了,也许非我个人能力所能解决,在此我也只能泛泛而谈,谈点思路,和大家一起分享,希望能为众多和我一样希望解决这个问题的朋友产生共鸣。既然是搜索引擎,我们也必须用搜索引擎的机制来构造我们的系统,我们需要有我们的自己采集网页的蜘蛛程序,但是我们采集范围可以缩小,我们可以不用像百度图片搜索那样见图就收,我们只收我们需要的高质量的图片素材,所以我们的目标库可以锁定在那些提供图片素材的设计网站上,定期监控采集最新的图片素材,把页面收录到我们的库中进行索引。由于现在各大网站互相转载抄袭的现象非常普遍,所以首次采集的内容,重复的信息无疑是非常多的,而且这样的重复并不是传统意义上的重复,而是图片主体内容相同,但是图片的描述方法却是不一样的,所以用肉眼马上就能分辨的重复内容,计算机却是不能识别的,这是个非常复杂的图像识别的范畴,目前尚无有效的解决方法。但是我们也许可以用人工+计算机的半自动化方法在后台解决这个问题。在精心初步的重复删选后,我们的存储的信息将更为简洁有效,搜索的内容也将更加快捷。图片搜索引擎还有一个重要的问题就是用户也许并不知道用何种关键词才是最快的检索方法,图片搜索引擎必须能够引导用户进行有效快捷的搜索,后台的关键词构造也是个非常深奥的学问,种种诸如此类的问题,只有动手才能够遇到。

      老子说:千里之行始于足下。我个人也不自量力的开启了一个项目:海图网www.23pic.com,来构造和研究这个专业的图片搜索引擎,我希望把它做成一个类似开源的网站,来和广大搜索引擎爱好者一起研究,有兴趣的欢迎加我的QQ 五四七零三八七三九 一起探讨。海纳百川,有容乃大,我希望做那个堂吉诃德,用我的剑打败那个像风车一样的搜索引擎的怪兽。