一、提高搜索引擎對用戶檢索提問的理解
為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關(guān)鍵詞檢索和目錄查詢的缺點,現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“大連網(wǎng)站建設(shè)”。搜索引擎在對提問進行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個可選擇的問題中進行再選擇。自然語言的優(yōu)勢在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會用“網(wǎng)站建設(shè)”這個詞來檢索,結(jié)果中必然會包括各類網(wǎng)站建設(shè)的介紹等等許多信息,而用“大連網(wǎng)站建設(shè)”,搜索引擎會將大連網(wǎng)站建設(shè)的信息提供給用戶,提高了檢索效率。
二、搜索引擎的分類
網(wǎng)頁 音樂(翻唱 MP3)影視(電影 電視) 視頻 播客 軟件 BT下載 硬件 圖片 壁紙 相冊 小說 文學(xué) 文檔(論文 述職報告 思想?yún)R報 演講稿 入黨申請書 作文 個人簡歷 畢業(yè)論文 法律論文 經(jīng)濟論文 教育論文 會計論文 計算機論文 畢業(yè)論文集 情書 調(diào)查報告 求職信 商業(yè)計劃書 實習(xí)報告 就職演說 自薦信 企劃方案 企業(yè)管理 年終總結(jié)) 新聞(資訊) 百科(知識 經(jīng)驗) 教育 人物 學(xué)校 專業(yè) 論壇 社區(qū) 博客 詞典 翻譯 地圖 動漫 Flash 游戲 娛樂 笑話 汽車 家電 手機 廣告 購物 商業(yè) 黃頁 房產(chǎn) 招聘 財經(jīng) 股票 基金 法律 國學(xué) 圖書 政府 目錄 學(xué)術(shù) 代碼 公交 實用查詢等幾十個分類。
四、將搜索引擎的技術(shù)開發(fā)重點放在對檢索結(jié)果的處理上,提供更優(yōu)化的檢索結(jié)果
1、純凈搜索引擎
這類搜索引擎沒有自己的信息采集系統(tǒng),利用別人現(xiàn)有的索引數(shù)據(jù)庫,主要關(guān)注檢索的理念、技術(shù)和機制等。
2、元搜索引擎
現(xiàn)在出現(xiàn)了許多的搜索引擎,其收集信息的范圍、搜索機制、算法等都不同,用戶不得不去學(xué)習(xí)多個搜索引擎的用法。每個搜索引擎平均只能涉及到整個www資源的30-50%(search engine watch數(shù)據(jù)),這樣導(dǎo)致同一個搜索請求在不同搜索引擎中獲得的查詢結(jié)果的重復(fù)率不足34%,而每一個搜索引擎的查準率不到45%。
元搜索引擎(metasearch enging)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將檢索結(jié)果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結(jié)果、個性搜索功能的設(shè)置和用戶檢索界面的友好性上,查全率和查準率都比較高。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick、搜客等。
3、集成搜索引擎
集成搜索引擎( All-in-One Search Page),亦稱為“多引擎同步檢索系統(tǒng) ”(如百度http://www.baidu.com)是在一個WWW頁面上鏈接若干種獨立的搜索引擎,檢索時需點選或指定搜索引擎,一次檢索輸入,多引擎同時搜索,用起來相當(dāng)方便。
集成搜索引擎無自建數(shù)據(jù)庫,不需研發(fā)支持技術(shù),當(dāng)然也不能控制和優(yōu)化檢索結(jié)果。但集成搜索引擎制作與維護技術(shù)簡單,可隨時對所鏈接的搜索引擎進行增刪調(diào)整和及時更新,尤其大規(guī)模專業(yè)(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。
4、垂直搜索引擎
垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務(wù)模式,通過針對某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價值的信息和相關(guān)服務(wù)。其特點就是“專、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。
三、對檢索結(jié)果進行處理
1、基于鏈接評價的搜索引擎
基于鏈接評價的搜索引擎的優(yōu)秀代表是Google(http://www.google.com),它獨創(chuàng)的“鏈接評價體系”是基于這樣一種認識,一個網(wǎng)頁的重要性取決于它被其它網(wǎng)頁鏈接的數(shù)量,特別是一些已經(jīng)被認定是“重要”的網(wǎng)頁的鏈接數(shù)量。這種評價體制與《科技引文索引》的思路非常相似,但是由于互聯(lián)網(wǎng)是在一個商業(yè)化的環(huán)境中發(fā)展起來的,一個網(wǎng)站的被鏈接數(shù)量還與它的商業(yè)推廣有著密切的聯(lián)系,因此這種評價體制在某種程度上缺乏客觀性。
2、基于訪問大眾性的搜索引擎
基于訪問大眾性的搜索引擎的代表是direct hit,它的基本理念是多數(shù)人選擇訪問的網(wǎng)站就是最重要的網(wǎng)站。根據(jù)以前成千上萬的網(wǎng)絡(luò)用戶在檢索結(jié)果中實際所挑選并訪問的網(wǎng)站和他們在這些網(wǎng)站上花費的時間來統(tǒng)計確定有關(guān)網(wǎng)站的重要性排名,并以此來確定哪些網(wǎng)站最符合用戶的檢索要求。因此具有典型的趨眾性特點。這種評價體制與基于鏈接評價的搜索引擎有著同樣的缺點。
3、去掉檢索結(jié)果中附加的多余信息
有調(diào)查指出,過多的附加信息加重了用戶的信息負擔(dān),為了去掉這些過多的附加信息,可以采用用戶定制、內(nèi)容過濾等檢索技術(shù)。
五、確定搜索引擎信息搜集范圍,提高搜索引擎的針對性
1、垂直主題搜索引擎
網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以十倍速的增長,一個搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的搜索引擎以其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一系席之地,比如象股票、天氣、新聞等類的搜索引擎,具有很高的針對性,用戶對查詢結(jié)果的滿意度較高。作者認為,垂直主題有著極大的發(fā)展空間。
2、非www信息的搜索
提供FTP等類信息的檢索
3、多媒體搜索引擎
多媒體檢索主要包括聲音、圖像、視頻的檢索。關(guān)于圖片搜索引擎的原理,《淺談圖片搜索引擎的實現(xiàn)》http://blog.sina.com.cn/s/blog_6000f74f0100e738.html 中提出了具有跨時代意義設(shè)計思路。
六、搜索引擎的最后一步
10年前我們要查閱資料,請教問題,更多想到的是請教專家,圖書管查閱等傳統(tǒng)方式。常常為了一個簡單的問題而到處尋師,在圖書館翻著類似我的電腦桌抽屜里的檢索卡片,苦苦尋找。曾幾何時,互聯(lián)網(wǎng)的普及與興起,搜索引擎的出現(xiàn),逐漸改變著我們的生活習(xí)慣和思維方式。很多問題“baidu一下,你就知道! 就像這里用的“曾幾何時”這一詞,中文不好的我只有模糊的理解,還以為有“曾經(jīng)”的意思,想用為第一句。于是百度知道搜索了一下,出自宋"王安石《祭盛侍郎文》:“補官揚州,公得謝歸。曾幾何時,訃者來門。” 才知是才過了不久的意思。
搜索引擎(search engine)是一個系統(tǒng),能從大量信息中找到所需的信息,提供給用戶;ヂ(lián)網(wǎng)出現(xiàn)到現(xiàn)今,信息量可以說成密指數(shù)的增長,大量信息就像Google的原本含義一樣“1的后面跟著100個0”,這個數(shù)比宇宙所有的基本粒子的數(shù)量總和還要大。在這浩如煙海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。
事物的發(fā)展往往遵循著合久必分,分久必合的規(guī)律,每一次的合與分都是代表著更高級更先進。同樣搜索引擎從最初的Archie可以用文件名查找整個互聯(lián)網(wǎng)中FTP文件的系統(tǒng),發(fā)展到Y(jié)ahoo早期一種手工錄入的分行業(yè)的目錄檢索。隨著搜索技術(shù)的發(fā)展,元標(biāo)記搜索、全文搜索重新又把整個互連網(wǎng)的信息整合起來提供給用戶,目前的Baidu、Google提供的就是一種整個互聯(lián)網(wǎng)的全文搜索,這種整合信息的搜索也稱為水平搜索。這種水平全文搜索固然可以把網(wǎng)絡(luò)中的所有相關(guān)信息提供給用,但這種“所有”不代表著是用戶所需的“所有”,往往夾雜著許多垃圾信息。問題出現(xiàn)就伴隨著去解決,如果平常使用搜索引擎比較全面,你會發(fā)現(xiàn)Baidu、Goolge都有了“更多”的選項,其中出現(xiàn)了大學(xué)搜索、新聞搜索、圖書搜索、圖片搜索等等這些專業(yè)化,行業(yè)化的搜索,也稱為垂直搜索。當(dāng)前垂直搜索正在逐漸走向豐富化、專業(yè)化、行業(yè)化,將越來越滿足人們的搜索需求。比如很多人在搜索問題時會到百度知道里搜索,因為那里更有針對性;搜索天氣會到天氣搜索中等等。
那么搜索引擎的下一步發(fā)展是什么呢?讓我們回想一下搜索引擎的定義:一個系統(tǒng),能從大量信息中找到所需的信息,提供給用戶。根據(jù)技術(shù)的不斷發(fā)展和事物規(guī)律暢想一下,垂直搜索發(fā)展到一定程度會出現(xiàn)信息的單一專業(yè)化太強,整體信息綜合化不好,而人們需要的不但要有專業(yè)信息,同樣也要有整體聯(lián)想信息。隨著人工智能、神經(jīng)網(wǎng)絡(luò)、網(wǎng)格計算等搜索技術(shù)的發(fā)展,我們又將有一個能整合互聯(lián)網(wǎng)信息,智能的提供用戶確實所“需”的信息,而不簡單只是所“要”的信息,因為很多時候搜索時,自己都不知道要什么。
再回的現(xiàn)在的搜索引擎,它就像一只神奇的手,從雜亂的信息中抽出一條清晰的檢索路徑。這個引擎提供給用戶的最后一步是什么?是一條清晰的檢索路徑。好的,注意這是一條檢索路徑,在這條路徑的上的檢索和信息提取是什么呢,是我們的閱讀和大腦的判斷。也就是做搜索引擎的最后一步是我們的大腦。得到的這條路徑清晰但也并不簡短,需要我們進行快速的瀏覽,呵呵,繞來繞去,得出一個結(jié)論,快速閱讀也是搜索引擎中的一部分。
隨著搜索市場競爭的白熱化,搜索引擎不僅開始深挖自己的戰(zhàn)壕,還開始打起了口水戰(zhàn),而山寨搜索引擎在高舉著“整合”的大旗,開始大搖大擺地進入這個本來只有巨頭壟斷的市場。國人充分發(fā)揮著其無比的想象力,準備讓國內(nèi)的互聯(lián)網(wǎng)“步入搜索新時代”。下面就讓我們看看什么是山寨搜索引擎writtes by 7118579
“百google度”- baigoogledu.com
最早的山寨搜索引擎,曾經(jīng)名噪一時。最早確定了山寨搜索引擎的模式,而且訪問量很高,但功能簡單,而且讓用戶需要不停的兩邊拖拉才能看到完整的結(jié)果。
“百谷虎”- baigoohoo.com
由于某家新聞媒體的報道,最近聲名大振,高舉著“山寨”大旗,讓國人開始了解什么是山寨搜索引擎,名字極富創(chuàng)意?上в捎谒阉鹘Y(jié)果被并排擠在一起,似乎沒有什么實際使用價值。
“熊熊搜索”- bearsou.com
似乎比較低調(diào)的山寨搜索,首頁整合了非常多的信息,甚至包含了天涯和VeryCD的熱門,搜索結(jié)果的體現(xiàn)也更人性,似乎還整合了百度知道的結(jié)果,不過功能太多,略顯凌亂。
“山寨文化”在每個人的心目中可能都有著不同的感覺,但隨著這股風(fēng)越刮越烈,可見草根對“山寨”的內(nèi)涵還是有相當(dāng)?shù)恼J同,百度和谷歌的嘴仗打的不亦熱乎,都指責(zé)對方結(jié)果不公正,山寨搜索卻硬要把這兩個冤家放在一起。也許很多人對“山寨搜索”嗤之以鼻,但是對于普通網(wǎng)民來說,是誰的搜索并不重要,是我們需要的結(jié)果才是最重要的么。如果是你,你會選擇誰呢?
搜索引擎優(yōu)化(Search Engine Optimization,簡稱SEO) 搜索引擎優(yōu)化即Search Engine Optimization,用英文描述是to use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something,翻譯成中文就是“搜索引擎優(yōu)化”,一般可簡稱為搜索優(yōu)化。與之相關(guān)的搜索知識還有Search Engine Marketing(搜索引擎營銷),Search Engine Positioning(搜索引擎定位)、Search Engine Ranking(搜索引擎排名)等。
搜索引擎經(jīng)過幾年的發(fā)展和摸索,越來越貼近人們的需求,搜索引擎的技術(shù)也得到了很大的發(fā)展。