【文.图/S.Roach】
网络上分享的影片多到看不完,在YouTube,只要关键字下得好,要找到一百部影片是很简单的,但是要如何搜索到正确的影片?如果没有正确的关键字,或者影片题目就是不对,甚至你只是在电视上匆忙看到几秒钟的片段,要如何找到正确的影片呢?
影片也能拿来搜索
许多人习惯有问题时,先去拜一下Google大神。Google强大的文字搜索能力,可以在茫茫网海中找到关键字,进而指出有用的网页。但是对于存在于网络的影片, Google就很难使上力,除了文件名与其他的文字介绍外,Google根本没什么用,就算回报了一个网址,文件名看起来相当符合,但长达十数分钟的属性,你又怎么知道想看的片段在哪一分钟呢?先不提网络够不够快的问题,要把每部片子都看完已经是很辛苦的事了。
怎么让搜索引擎也可以找影片,就像我们用Google找文字信息一样精确,这是个很有趣,或者说,这是个非常有「钱」途的问题。想像一下,未来每个人的手机都可以摄影,还可以立即上传到部落格,每天新建的分享影片可能有几百万部,比文字信息还多,谁能精确搜索这些属性,就是下一个Google。
利用声音搜索影片属性
针对这问题,大家的解决方法都不同,但当前最成功的,应该是利用语音辨识技术。例如美国老板顿的EveryZing公司,他们的技术在读取影片后,将影片中的声音转换为文字,然后记录在数据库中。所以你只要打入关键字,计算机便在数据库中搜索文字信息,而非搜索影片的图像,找到后再将影片链接交还给你视图。这方法的好处很明显,只要字符串对了,搜索影片属性无往不利。国内很多考生会在家中用补习班提供的录像带温习功课,如果辅以这个技术,考生遇到不懂的地方,只要在计算机内输入关键字,便可以看到所有录像带中的相关讲解,如果想不起讲课属性,只要回想起老师曾讲过某个笑话,输入笑话内的关键字,也可以找到前后的影片片段,实在是非常方便。
语音辨识技术仍难达成百分之百准确
但这技术的优点也是缺点,既然是搜索影片中语音所转换的文字,如果辨识错误该怎么办?事实上,语音辨识只是个发展了几十年的技术,也一直还有优化空间;而且大部分的语音辨识技术,都是针对某一种语言所开发的,如果要针对全世界的用户,上百种语言与数万种口音的隔阂,让语音搜索简直成为不可能的事情。
影片属性搜索与广告行销
计算机对于精确的事情很在行,1+1=2不会出错,但是模糊的事情就要依靠人类。一杯水加一壶水等于什么?各位读者的答案再怎么急转弯,也比计算机的「Syntex Error格式错误」好得太多了。语言本身就是一个很模糊的东西,连发音也很模糊,人跟人讲话都有可能听错了,所以不能期待计算机完全正确抄写影片中的对白。
EveryZing公司说,这技术不止用在搜索上,还能抄录整部电影的对白;也就是说,你可能知道周星驰在电影中将蟑螂取名为「小强」,但是哪一部电影呢?使用这技术,只要在他的电影中搜集「小强」两个字,不但可以知道是哪一部电影,连在几分几秒说的都能知道。如果搭配够强大的翻译软件,可以先把各国的影片各自抽出该普通话言对白,再翻译成中文或其他文字,就可以把搜索范围扩大到网络上各种语言的影片。
除了EveryZing,Blinkx公司也使用语音技术搜索影片属性,不过方法稍有差异。曾使用Google的人都知道,Google会从你找的网页属性,决定提供什么样广告给你参考;而这种针对特定用户的广告方式,也着实让Google赚翻了。Google在影片搜索方面也是一样,藉由影片的文件名与关键字置入广告,问题是YouTube的许多影片根本没什么可用的关键字,所以广告往往没有命中目标。Blinkx则会分析影片属性,据他们的说法,不只是语音而已,还包含影片视频,然后根据这些属性决定要插入什么广告,使得广告效率应该会比Google的文字搜索好多了。
其他可能的搜索方式
可能有人会问说,为什么不用图象标识技术进行影片搜索呢?其实这是个很棒的方法,想像一下,你想找台北101的影片,所以在网络上挑选一张台北101的照片,计算机便能扫描所有的影片,找出里面有相似台北101的影片片段,并回报超链接给你浏览。更甚者,你只要输入「101」,计算机便猜出你想找哪些影片。
图片与影片辨识的实作困难度极高
那为什么不这样做?因为当前办不到啊!在计算机科学中,想在一张图片中找到一条直线,就要用到一些演算法,从各个角度,各个方向去查找可能是线条的东西,而且需要的计算时间还蛮长的,别人的文字搜索程序已经扫描完成整个文本文档,图片比对程序却刚准备好数据而已,况且一段影片是由许许多多的图片所构成,这又将影片比对程序的难度乘上很多倍。
说到这个,我们不得不赞叹自然界的奇迹,每一个人都是一个了不起的工程成就。当你看到一张图时,不用人家教,马上就能辨识这张图内有没有台北101的图象,不必学习什么类神经演算法、模糊理论,Hough Transform等数学多到想烧课本的技术,反正就是可以在一闪而过的影片中,找到有兴趣的信息。
前途无限技术有待突破
大致来说,数据搜索的速度是以文字最简单,然后是语音,图片又更难。由于影片是由图片构成的,在影片中查找物体,困难度将是好几倍,而在连续影片中标识出某个动作,更是干脆坦承「办不到」比较快。如果计算机可以知道影片中出现什么信息代表「偷东西」的动作,那光是卖给全世界的商店就赚到翻了。
微软前总裁Bill Gates曾劝学生多研习计算机科学,因为有太多的技术等待开发,而其中许多离实现梦想的日子还非常遥远,需要很多优秀的人才持续投入。就如我们这边所说的,在众多影片中搜索有用的片段,当前只是个还不成熟的技术,不论是Blinkx或EveryZing,或者其他正在各顶尖机构研究的相关技术,其实都离真正的解决方法还有很大差距。建议读者们不妨试用一下前述这些影片搜索站点,也许会对于下一代的网络搜索引擎有更多想法。
【digitalhome 第106期4月号】