用www 搜索引擎檢索
  • 更新時間:2024-11-06 17:38:07
  • 網(wǎng)站建設(shè)
  • 發(fā)布時間:1年前
  • 265

WWW,又稱萬維網(wǎng)或萬維網(wǎng),是1989年由歐洲核子研究中心的美國科學家蒂姆貝默斯-李開發(fā)并命名的基于超文本的信息傳輸網(wǎng)絡(luò),開啟了互聯(lián)網(wǎng)新的一頁。 Tin Bemcrs-L因此被譽為萬維網(wǎng)之父,并獲得了世界上第一個“千年科技獎”。 WWW和Internet不是一個概念,而是Internet提供的服務(wù)功能之一。 WWW使網(wǎng)絡(luò)用戶不再面對枯燥和混亂的機器使用說明。通過瀏覽器和超鏈接,您可以直觀、方便地訪問互聯(lián)網(wǎng)上呈指數(shù)級增長的文本、圖像和各種多媒體信息。此外,在互聯(lián)網(wǎng)上收集用戶感興趣的信息還必須依賴一個強大的工具,那就是WWW搜索引擎。

搜索引擎是在互聯(lián)網(wǎng)上提供信息搜索服務(wù)的平臺,是使用最廣泛的網(wǎng)絡(luò)服務(wù)工具。我們現(xiàn)在常用的搜索向?qū)?,基本都運行在WWW中,所以也可以稱為WWW搜索向?qū)?。隨著網(wǎng)絡(luò)信息越來越深入到普通人的生活中,搜索和推薦已經(jīng)成為互聯(lián)網(wǎng)上流行的關(guān)鍵技術(shù),研發(fā)的競爭也從未停止過。我們之所以能夠“輕點”數(shù)以億計的互聯(lián)網(wǎng)網(wǎng)頁信息,是因為互聯(lián)網(wǎng)上成千上萬的搜索引擎都在孜孜不倦地發(fā)現(xiàn)、抓取、存儲、索引和提供網(wǎng)絡(luò)信息檢索服務(wù)。他們正朝著專業(yè)化、本土化、生活化的方向前行。 WWW搜索引擎按其運行方式的不同可分為三種類型:目錄網(wǎng)站、全文搜索引擎和元搜索引擎。萬維網(wǎng)

1.目錄網(wǎng)站

日報建站是早期的WWW信息搜索工具,其工作方式是人工收集整理網(wǎng)絡(luò)信息,以分類話題的形式呈現(xiàn)和瀏覽。由于人工成本高,技術(shù)含量相對較低。本質(zhì)上,它并不是真正的搜索指南,所以至今沒有被人們所重視。幾乎所有的目錄網(wǎng)站都開發(fā)了自己獨立的新一代搜索指南,演變成常見的關(guān)鍵詞搜索形式,如新浪、搜狐、雅虎中國等已經(jīng)很難找到原有目錄瀏覽方式的痕跡,只有少數(shù)仍然保留原網(wǎng)站分類搜索的特點。最著名的網(wǎng)站名錄是雅虎的中文網(wǎng)站名錄,按出現(xiàn)時間依次包括搜狐、網(wǎng)易、新浪等,還有LookSmart。關(guān)于等在國外。名錄網(wǎng)站具有以下特點。

基于樹目錄瀏覽網(wǎng)絡(luò)信息,簡單易用。以樹型目錄結(jié)構(gòu)組織的信息資源導(dǎo)覽系統(tǒng)嚴謹,可擴展性好。月記加入了人性化的智能,屏蔽了網(wǎng)絡(luò)高級系統(tǒng)相對于用戶的復(fù)雜性,并能提高信息的準確性,高質(zhì)量的導(dǎo)航。 資源分類不夠細化。網(wǎng)絡(luò)信息資源的復(fù)雜性決定了很難確定一個全面的分類體系作為主題樹結(jié)構(gòu)的基礎(chǔ)來覆蓋所有的網(wǎng)絡(luò)信息資源。為了保證主題的可用性和結(jié)構(gòu)的清晰度,分類系統(tǒng)的類別不宜過多,這樣一來,一些特殊的分類無處可尋,另一方面,大量的網(wǎng)頁被排除在外,因為它們不包含在目錄中。忽視。隨著Web 的發(fā)展,這個問題只會變得更糟。使用聚類或其他自動分類(包括自然語言處理、相關(guān)頂部提取等)的方法仍然不能令人滿意。并且會出現(xiàn)機器自動得到的類和人工分類的結(jié)果不一樣的問題。 由于人工干預(yù)、維護量大、信息相對較少、信息更新不及時等原因,此類目錄網(wǎng)站為了使用戶能夠獲得更多的信息,往往會向其他搜索引擎發(fā)送查詢以搜索整個Web .今天的目錄站點和全文搜索引擎相互融合,用戶基本沒有區(qū)別。例如,雅虎使用谷歌的搜索指南提供頁面搜索,谷歌使用“OpenDirectory”目錄提供分類查詢,搜索界面幾乎是一樣的。二、全文搜索引攀全文搜索引擎,堪稱真正的搜索引擎。與網(wǎng)站目錄不同的是,它不再采用人工信息搜索和分類,而是采用軟件程序?qū)W(wǎng)絡(luò)信息進行收集、索引和檢索。全文搜索lead climbing 的結(jié)構(gòu)由四部分組成。

(I) 搜索者。爬蟲或網(wǎng)絡(luò)機器人。它是一種自動網(wǎng)絡(luò)搜索軟件,通常稱為“蜘蛛”、爬蟲(crawler)或機器人(robots)等?!爸┲搿钡奈ㄒ还ぷ骶褪锹尉W(wǎng)絡(luò)以發(fā)現(xiàn)和收集信息。它每天可以“抓取”大約1000萬個網(wǎng)頁,以最快的速度收集各種類型的新信息。同時,由于網(wǎng)絡(luò)上的信息更新非???,所以需要定期更新已經(jīng)收集到的舊信息,避免出現(xiàn)死鏈接和無效鏈接。收集信息有兩種策略。首先,從一組URL(資源定位器)開始,跟隨這些URL 中的超鏈接,以廣度優(yōu)先或深度優(yōu)先的方式遞歸地從Web 中提取信息。這些起始網(wǎng)址往往是一些非常流行的站點,包含很多鏈接,比如雅虎的分類節(jié)點;其次,通過設(shè)置“添加URL”欄目,網(wǎng)絡(luò)信息作者可以主動向搜索引擎提供網(wǎng)頁地址,但這種方式經(jīng)常被垃圾郵件轟炸,幾乎95%的通過添加URL字段提交的URL都被拒絕。搜索指南采用的搜索信息策略不同,如搜索頻率、搜索對象等,都會造成各搜索引擎的搜索結(jié)果和質(zhì)量的差異。

(2) 索引器。索引器或索引器。它的功能是分析收集器收集的信息,執(zhí)行自動索引,以易于檢索和存儲的形式表示文檔

在索引庫中,也就是建立倒排文檔。倒排文檔中的每個標引項都包含一組指針,指向它出現(xiàn)的網(wǎng)頁。為了給用戶提供有關(guān)被檢出文檔的信息,標引中還包含每個頁面的簡單描述,如產(chǎn)生日期、大小、標題、子標題和摘要等。
???
(3)檢索器。檢索器或稱為檢索軟件,它的功能是根據(jù)用戶的查詢,在索引庫中快速檢索出相關(guān)文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并能夠?qū)崿F(xiàn)某種用戶相關(guān)反饋機制(即可以對檢索策略的不斷修正)。檢索器被視為搜索引擎中最復(fù)雜的部分,其中包含關(guān)于檢索結(jié)果的排序的重要問題。研究者發(fā)現(xiàn)用戶不可能耐心地去瀏覽動輒上萬的搜索結(jié)果,而只會注意到最前幾頁的搜索結(jié)果,光靠點擊率和詞頻來簡單排序的方法顯然有缺陷。
???
三、元搜索引攀

?元搜索引攀又稱多搜索引擎,這類搜索引攀沒有自己的海量數(shù)據(jù)庫,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進行去排序等處理后再將結(jié)果返回給用戶。按其搜索機制可分為并行式和串行式。并行式元搜索引攀指將查詢要求問時發(fā)向各個獨立的搜索引攀。然后將結(jié)果按特定的順序提供給用戶。串行式元搜索引攀是將查詢耍求先發(fā)給某個獨立的搜索引擎,待其返回結(jié)果后再將請求發(fā)給另一個搜索引攀。

我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!

本文章出于推來客官網(wǎng),轉(zhuǎn)載請表明原文地址:https://www.tlkjt.com/web/12602.html
推薦文章

在線客服

掃碼聯(lián)系客服

3985758

回到頂部