搞搜索一段时间了,也有些idea,不过可惜人单势孤,放弃了一些..
美女搜索 肯定就是针对美女的检索系统.检索美女的内容包括
1,文字检索
2,图像检索
3,音频检索
其中文字检索美女,现有的搜索引擎就可以支持,所以我也就不卖弄了,不过现有系统肯定有发展的余地,希望寄托再搞自然语言理解的那帮人身上;音频检索这个比较复杂,语音处理方面我是门外汉,也不说了.其实大家最关心的问题是图像检索,要是在某个图像检索系统中每个人都能搜索到全是自己喷血的那种图片,该公司上市后股价超越GG是指日可待.
首先分析一下现有的图片搜索引擎.例如GG和baidu等图片搜索,大都会是基于图片所在页面文字内容的分析对图片进行分类检索.图片搜索当前采用的技术有:
1.使用图片的描述文字,也就是alt的文字
2.使用上下文环境进行分析.如图片上,下都是介绍A女明星和B有绯闻,那么可能在搜索的时候A的时候就会找到该图片;
3.使用灰度值对比. 像http://labs.systemone.at/retrievr 这个搜索引擎一样,但是这个存在一个问题,就是像我们这样的缺少艺术细胞的人不在少数,找泳装美女我只会点三点…………..
那么美女搜索当前可行的办法是怎么样呢?
首先,抓取网上图片建立图片库;
接着索引图片,将所有图片转换成灰度值表示,并分析图像边缘;
最后提供搜索界面;在这里需要注意的是美女图片必须一定要个性化,人的审美观存在严重差异性,因为张三认为漂亮的李四不一定认为漂亮,所以在这里,你单纯的搜索 美女 作为关键字只能搜索到比较大众化的图片.如果你输入三维,身高,并且泳装,呵呵,你会找到相当匹配的结果.
搜索语法也将会是这样:
三围:38,22,38 泳装
当然要是你认为 三围:80,80,80 泳装 是你眼中的美女,那么你也可以找到很多结果.
发信人: majia100 (蓦然回首), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sat Feb 18 23:36:32 2006), 站内
好!
1)我觉得文字检索不能放弃。文字检索中包含了人们的意见,在不同场景下的人对美女会 有偏好,比如很多女人会喜欢李宇春,而很多男人喜欢张靓影。在3个图片中,由人们自己去确定自己喜欢哪一个,是可以接受的。不能接受的是,我们需要去在100个图片中,找自己喜欢的一个美女。
2)要发展图片检索技术。图片模式自动识别美女,在某种程度上,它可以减少人们的偏见。
发信人: cathayan (.org), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sat Feb 18 23:50:18 2006), 站内
beautyrank,登满美女图的站依质量比如定为9,那它连接到的站就有较的高值
pagerank高的站由于有较高公信力,它上面提到的美女也应相应加点得分
发信人: tenshi (Call for Offers), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sat Feb 18 23:55:00 2006), 站内
我觉得应该 Collaborative Filetering
发信人: pmail (zcool), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sat Feb 18 23:58:31 2006), 站内
嗯,我准备也这么说.
因为A网站图片多不代表美女多.
判断一个网站美女多的标准在于用户检索出的美女图片多少来源于该网站?
为了防止spam,那么具体就要看用户是否点击查看该网站的美女图片的具体信息.
发信人: marr (万人如海一身藏), 信区: Google
标 题: NiuB搜索:让美女无处可逃
发信站: 水木社区 (Sun Feb 19 04:19:40 2006), 站内
反正睡不着觉,瞎掰两句。
音频基本就不要想了,不具备scalability,而且我遇到的美女多半声音一般。
按照三围搜索比较不靠谱,反正我上网看美女照片才不管她是A还是F。漂亮才是王道。而且大部分的美女都不伴随着详细资料(有的话倒是可以通过IE把三围生日抽取出来)
我觉得一个比较靠谱的系统是去crawl许许多多网上的美女图片(不管是网友写真还是日本女优),然后自动识别并标注上美女的名字。
系统暂命名为 NiuB: Name It, Universal Beauty
标注呢可以采取两种方式:
1. 自动标注
1) 通过分析网页内容和布局来得到(需中文日文英文的Name Entity技术)
2) 通过对图片上的文字进行OCR识别得到(需中文日文英文的OCR)
2. 手工标注
以新浪爱问百度知道为榜样, 发动广大网友进行美女标注的比赛. 并根据标注积分的多少向网友授予色友, 色郎, 色魔等称号(每种称号分1-3级)
当得到了巨量的美女图片和相对应的美女名字之后,应用前景十分广阔。可能的应用有
1. 网友照片真伪判别
现在有许多道德责任感不强的网友,经常把网上找到的美女照片作为自己的照片发到论坛上或者寄给其他清纯的网友,造成了很恶劣的影响。虽然这样的情况在论坛上出现时常常被色魔一级的网友无情的揣穿,但普通网友尚无此功力。久而久之,劣币驱逐良币,真正的网络美女越来越少。本着加强诚信教育,保护网络美女这一互联网时代最重要的非物质文化遗产的精神,NiuB系统提供了真伪判别的功能,用户只需要向系统提交一张美女图片(支持各种主流图片格式),美女是真是加,一搜便知。据分析,这可能会是第一个在中国实现商用的基于内容的图片搜索引擎。
(除了普通搜索引擎需要的技术,额外的技术包括near duplicate detection,feature extraction等)
2. 美女鉴赏助手
可按照美女名字对照片进行分类-> 该美女的写真集(会导致大量以写真集为主业的网站关门)
可通过Google来得到美女的一些个人信息(年龄,国籍,三围等),从而实现美女和美女的聚类。实现多种方式的Image browsing
在网上遇到某美女照片的时候,在欣赏某电影遇到不熟悉的明星时,可自动给出此美女姓名(需额外开发软件,具体算法可参照berkeley的cvpr论文”Names and Faces)
3. 美女推荐
记录用户以往浏览美女图片的情况,并自动分析用户的品味(口味),并向用户推荐美女。需Collaborate filtering等
。。。。
困了,大家继续补充吧。。。。越写越觉得很多技术都可以往里放,咔咔。
我们的口号是,美女与技术的完美结合,真Niu B!
发信人: xmsnow (又到珞樱缤纷时), 信区: Google
标 题: Re: NiuB搜索:让美女无处可逃
发信站: 水木社区 (Sun Feb 19 12:46:22 2006), 站内
狂赞!
有需求,有应用,有技术,就能涌现出可行的IDEA!
技术的发展应该就是这样吧,牛人真不少,长学问了~
上面谈到的技术方面,大都有所了解,唯一对Collaborate Filtering只知道概念,没怎
么看paper,哪位大牛劳烦请给解释一下,谢谢!
发信人: pmail (zcool), 信区: Google
标 题: Re: NiuB搜索:让美女无处可逃
发信站: 水木社区 (Sun Feb 19 12:55:21 2006), 站内
协同过滤,就是:用户访问的日志信息与网站本身的内容相结合进行针对性的调整.
传统的网站都是靠网站编辑来决定内容的重要性,协同过滤就是考虑信息对用户的受欢迎程度,若一个信息可能网站编辑没有把他放入次要行列,但是大批用户都对这个信息感兴趣,那么这个信息对该网站来说还是重要信息内容.
如digg.com就是这样的吧.以前的搜索引擎也采用过这个办法,可能现在的GG,baidu也使用了,只是不是什么新鲜知识,并且防止spam,所以没有提出.
发信人: pmail (zcool), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 12:56:36 2006), 站内
marr 在上面说的更接近实际应用,我说的那个有一定的技术门槛..
发信人: xmsnow (又到珞樱缤纷时), 信区: Google
标 题: Re: NiuB搜索:让美女无处可逃
发信站: 水木社区 (Sun Feb 19 14:29:14 2006), 站内
ok, i see.
那就是跟个性化相关了,以前扫过一些论文标题,也都是Collabrate Filtering & Per
sonalization。
对用户兴趣建模,提供个性化信息推送,的确是发展的趋势。
多谢楼主了,受益,转到偶的blog上去慢慢考虑。
可惜最近忙着毕业,没时间研究这些问题~
发信人: gtsoldier (回家还有4天), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 15:47:58 2006), 站内
【 在 pmail (zcool) 的大作中提到: 】
: 搞搜索一段时间了,也有些idea,不过可惜人单势孤,放弃了一些..
: 美女搜索 肯定就是针对美女的检索系统.检索美女的内容包括
: 1,文字检索
: ……………….
我们以前想搞美女打分系统来的,可是到实际操作问题就来了,每个级别的分数你都要作训练集吧,算下来工作量太大了。而且这个主观的因素太大,每个人的眼光都是不一样的,同样的人每个人打的分数也不会相同的
发信人: meandyou (Magic boulevard), 信区: Google
标 题: Re: NiuB搜索:让美女无处可逃
发信站: 水木社区 (Sun Feb 19 15:53:58 2006), 站内
呵呵
还是有些想法的
想法固然重要,但更要考虑实时性和人性化
发信人: tenshi (Call for Offers), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 17:02:04 2006), 站内
normailized 一下就是了, CF 的技术多去了
发信人: marr (万人如海一身藏), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 17:10:26 2006), 站内
看看www.hotornot.com
才发现人和人的审美差的真多啊
发信人: pmail (zcool), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 17:20:07 2006), 站内
嗯,这个也就是我在顶楼强调严格个性化的原因.
什么是搜索引擎可以逐步得到一个大众认可的定义出来,但是什么是美女这个就无法定义了.
所以提供三围,肤色,身高等语法搜索是有必要的,那样搜索字符串就是这样:
三围:80,60,80 身高>160 种族:汉 泳装
这句话就是表示搜索三围分别为80,60,80 ,身高大于160cm,汉族的穿泳装的美女.
发信人: zszqzzzf (hello), 信区: Google
标 题: Re: 美女搜索 探讨
发信站: 水木社区 (Sun Feb 19 17:54:39 2006), 站内
【 在 pmail (zcool) 的大作中提到: 】
: 嗯,这个也就是我在顶楼强调严格个性化的原因.
: 什么是搜索引擎可以逐步得到一个大众认可的定义出来,但是什么是美女这个就无法定义了.
wiki的精华,在于信任别人的评价,而且每个人都可以发表自己的见解,最终形成一个见
解。谁是美女,谁不是美女,抽象的美女定义很难得出,但具体的一个女人却是容易评的
美与丑是比较出来的,因而放心大胆地让人们去评价,很容易归纳出某个女人是否美女。
: 所以提供三围,肤色,身高等语法搜索是有必要的,那样搜索字符串就是这样:
: ……………….