Google搜索從入門到精通
http://tech.163.com/school · 2005-04-01 15:24:34 · 來源: 中國站長網
1、GOOGLE簡介
Google(www.google.com)是一個搜索引擎,由兩個斯坦福大學博士生Larry Page與Sergey Brin於1998年 9月發明,Google Inc. 于1999年創立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜索引擎,同年9月份,Google成為中國網易公司的搜索引擎。98年至今,GOOGLE已經獲得30多項業界大獎。
GOOGLE的成功得益於其強大的功能和獨到的特點:
GOOGLE支援多達132種語言,包括簡體中文和繁體中文;
GOOGLE網站只提供搜索引擎功能,沒有花裏胡哨的累贅;
GOOGLE速度極快,據說有10000多台伺服器,200多條T3級寬頻;
GOOGLE的專利網頁級別技術PageRank能夠提供高命中率的搜索結果;
GOOGLE的搜索結果摘錄查詢網頁的含有關鍵字的內容,而不僅僅是網站簡介;
GOOGLE智慧化的“手氣不錯”功能,提供可能最符合要求的網站;
GOOGLE的“網頁快照”功能,能從GOOGLE伺服器裏直接取出緩存的網頁。
2、搜索入門
要用GOOGLE做搜索,當然首先要進GOOGLE網站--www.google.com;不過,163.com和yahoo.com.cn使用的實際上也是GOOGLE搜索引擎,只是對搜索結果進行了編排,但無法提供一些特色功能,如圖片搜索等。
第一次進入GOOGLE,它會根據你的作業系統,確定語言介面。需要提醒的是,GOOGLE是通過cookie來存儲頁面設定的,所以,如果你的系統禁用cookie,就無法對GOOGLE介面進行個人設定了。
GOOGLE的首頁很清爽,LOGO下面,排列了四大功能模組:網站、圖像、新聞組和目錄服務。默認是網站搜索。現在進行第一次搜索實踐,要查找所有關於“易筋經”的中文網站和網頁。在搜索框內輸入一個關鍵字“易筋經”,然後點擊下面的“google搜索”按鈕(或者直接回車),結果就出來了。
搜索:“易筋經”
結果:已搜索有關易筋經的中文(簡體)網頁。 共約有5,930項查詢結果,這是第1-10項 。 搜索用時0.12秒。
3、初階搜索
在上例子中,你已經知道了最基本的搜索,即查詢包含單個關鍵字的資訊。現在,進一步探討多個關鍵字以及關鍵字間不同邏輯關係的查詢。
3.1、搜索結果要求包含兩個及兩個以上關鍵字
一般搜索引擎需要在多個關鍵字之間加上“+”,而GOOGLE無需用明文的“+”來表示邏輯“與”操作,只要空格就可以了。
示例:搜索所有包含關鍵字“易筋經”和“吸星大法”的中文網頁
搜索:“易筋經 吸星大法”
結果:已搜索有關易筋經 吸星大法的中文(簡體)網頁。 共約有774項查詢結果,這是第1-10項 。 搜索用時 0.24秒。
注意:文章中搜索語法外面的引號僅起引用作用,不能帶入搜索欄內。
3.2、搜索結果要求不包含某些特定資訊
GOOGLE用減號“-”表示邏輯“非”操作。
示例:搜索所有包含“易筋經”而不含“吸星大法”的中文網頁
搜索:“易筋經 -吸星大法”
結果:已搜索有關易筋經 -吸星大法的中文(簡體)網頁。 共約有5,150項查詢結果,這是第1-10項 。 搜索用時 0.40秒。
注意:這裏的“+”和“-”號,是英文字元,而不是中文字元的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。比如“易筋經 - 吸星大法”,搜索引擎將視為關鍵字為易筋經和吸星大法的邏輯“與”操作,中間的“-”被忽略。
3.3、搜索結果至少包含多個關鍵字中的任意一個
GOOGLE用大寫的“OR”表示邏輯“或”操作。假定你是布蘭妮和批頭士的歌迷,現在要查找所有關於布蘭妮和批頭士的中文網頁。
示例:搜索包含布蘭妮“Britney”或者披頭士“Beatles”、或者兩者均有的中文網頁。
搜索:“Britney OR Beatles OR 布蘭妮 OR 批頭士”
結果:已搜索有關Britney OR Beatles OR 布蘭妮 OR 批頭士的中文(簡體)網頁。 共約有31,300項查詢結果,這是第1-10項 。
注意:小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”查詢。
3.4、“+”、“-”和“OR”的混合查詢
混合查詢涉及到邏輯操作符的順序問題。一般而言,搜索引擎按照從左往右的順序讀取操作符號。如果只涉及“與”操作和“非”操作,則不會產生順序問題,搜索結果數量和關鍵字順序無關,不過,具體搜索的結果順序會視關鍵字的順序而定。單純的“或”操作也同樣道理。但是,如果“或”查詢和其他兩種查詢混合在一起,問題就複雜了。現在我們做這樣的查詢:“所有關於Britney或者Beatles、但是沒有Madonna相關資訊的中文網頁”。
搜索:“Britney OR Beatles -Madonna”
結果:已搜索有關Britney OR Beatles -Madonna的中文(簡體)網頁。 共約有16,200項查詢結果,這是第1-10項 。 搜索用時0.23秒。
搜索:“-Madonna Britney OR Beatles”
結果:已搜索有關-Madonna Britney OR Beatles的中文(簡體)網頁。 共約有16,200項查詢結果,這是第1-10項 。 搜索用時0.13秒。
搜索:“Britney -Madonna OR Beatles”
結果:找不到和您的查詢-Britney -Madonna OR Beatles-相符的網頁
搜索:“Britney OR -Madonna Beatles”
結果:找不到和您的查詢-Britney OR -Madonna Beatles -相符的網頁
可見,“或”操作的前後兩個關鍵字必須是默認的“與”查詢,否則,搜索引擎將無法完成搜索。
3.5、用“+”和“-”減少冗餘資訊
通常情況下,用一個關鍵字查詢,會得到很多和查詢目的不相關的冗餘資訊。我們總是希望,搜索結果的第一個條目中就包含所需要的資訊。“+”和“-”很多時候就起到縮小搜索結果的範圍,以提高查詢結果命中率。
例:查閱天龍八部具體是哪八部。
分析:如果光用“天龍八部”做關鍵字,搜索結果有20,300項,而且排前列的主要與金庸的小說《天龍八部》相關,很難找到所需要的資訊。可以用兩個方法減少無關結果。
(1)、如果你知道八部中的某一部,比如阿修羅,增加“阿修羅”關鍵字。“天龍八部 阿修羅”的搜索結果就只有1,050項,可以很快找到全部八部。
(2)、如果你不知道八部中的任何一部,但知道這與佛教相關,可以排除與金庸小說相關的記錄。“天龍八部 佛教 -金庸”的查詢結果為1,120項,可以迅速找到需要的資料。
4、輔助搜索
4.1、通配符問題
很多搜索引擎支援通配符號,如“*”代表一連串字元,“?”代表單個字元等。GOOGLE不支持通配符,只能做精確查詢,關鍵字中的“*”或者“?”會被忽略掉。
4.2、關鍵字的字母大小寫
GOOGLE對英文字元大小寫不敏感,“GOD”和“god”搜索的結果是一樣的。
4.3、搜索整個句子
GOOGLE的關鍵字可以是片語(中間沒有空格),也可以是句子(中間有空格),但是,用句子做關鍵字,必須加英文引號。
示例:搜索包含“long, long ago”字串的頁面。
搜索:“"long long ago"”
結果:已搜索有關long long ago的中文(簡體)網頁。 共約有16,500項查詢結果,這是第1-10項 。 搜索用時 0.06秒。
4.4、搜索引擎忽略的字元和辭彙
GOOGLE對一些網路上出現頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符號如“*”、“.”等,作忽略處理。
示例:搜索關於第一次世界大戰的資訊
搜索:“"worldwar i"”
結果:"i"使用過於頻繁,沒有被列入搜索範圍。已向英特網搜索"worldwar i". 共約有7,370項查詢結果,這是第1-10項 。 搜索用時0.17秒。
4.5、強制搜索
如果要對忽略的關鍵字進行強制搜索,則需要在該關鍵字前加上明文的“+”號。
示例:搜索包含“Who am I ?”的網頁。如果用“"who am i ?"”,“Who”、“I”、“?”會被省略掉,搜索將只用“am”作關鍵字,所以應該用強制搜索。
搜索:“"+who +am +i"”
結果:已向英特網搜索"+who +am +i". 共約有332,000項查詢結果,這是第1-10項 。 搜索用時3.68秒。
注意:大部分常用英文符號(如問號,句號,逗號等)無法成為搜索關鍵字,加強制也不行。
5、進階搜索
上面已經探討了GOOGLE的一些最基礎搜索語法。通常而言,這些簡單的搜索語法已經能解決絕大部分問題了。不過,如果想更迅速更貼切找到需要的資訊,你還需要瞭解更多的東西。
5.1、對搜索的網站進行限制
“site”表示搜索結果局限於某個具體網站或者網站頻道,如“sina.com.cn”、“edu.sina.com.cn”,或者是某個功能變數名稱,如“com.cn”、“com”等等。如果是要排除某網站或者功能變數名稱範圍內的頁面,只需用“-網站/功能變數名稱”。
示例:搜索中文教育科研網站(edu.cn)上所有包含“金庸”的頁面。
搜索:“金庸 site:edu.cn”
結果:已搜索有關金庸 site:edu.cn的中文(簡體)網頁。 共約有1,730項查詢結果,這是第1-10項 。 搜索用時 0.23秒。
示例:搜索包含“金庸”和“古龍”的中文新浪網站頁面,
搜索:“金庸 古龍 site:sina.com.cn”
結果:已在sina.com.cn搜索有關金庸 古龍 的中文(簡體)網頁。 共約有734項查詢結果,這是第1-10項 。 搜索用時0.12秒。
示例:搜索新浪文教頻道中關於魯迅的資訊。
搜索:“魯迅 site:edu.sina.com.cn”
結果:已在edu.sina.com.cn搜索有關 魯迅的中文(簡體)網頁。 共約有672項查詢結果,這是第1-10項 。 搜索用時0.24秒。
注意:site後的冒號為英文字元,而且,冒號後不能有空格,否則,“site:”將被作為一個搜索的關鍵字。此外,網站功能變數名稱不能有“http”以及“www”首碼,也不能有任何“/”的目錄尾碼;網站頻道則只局限於“頻道名.功能變數名稱”方式,而不能是“功能變數名稱/頻道名”方式。諸如“金庸 site:edu.sina.com.cn/1/”的語法是錯誤的。
5.2、查詢某一類文件(往往帶有同一副檔名)
“filetype:”,這是個尚在測試階段的GOOGLE特色查詢,不過功能已經非常強大,可以做很多意想不到的事情哦。:)
最重要的文檔搜索是PDF搜索。PDF是ADOBE公司開發的電子文檔格式,現在已經成為互聯網的電子化出版標準。目前GOOGLE檢索的PDF文檔大約有2500萬左右。PDF文檔通常是一些圖文並茂的綜合性文檔,提供的資訊一般比較集中全面。
示例:搜索關於電子商務(ECOMMERCE)的PDF文檔。
搜索:“ecommerce filetype:pdf”
結果:已向英特網搜索ecommerce filetype:pdf. 共約有25,500項查詢結果,這是第91-100項 。 搜索用時 0.44秒。
下面是某項搜索結果:
[PDF] www.ecommerce.gov/apec
文檔類型: PDF/Adobe Acrobat - 一般文字檔
Page 1. A Partnership of the Business Community With APEC Economies E-COMMERCE
READINESS ASSESSMENT GUIDE www.ecommerce.gov/apec Page 2. ...
www.ecommerce.gov/apec/docs/readiness_guide_files/readiness_guide_5.pdf - 類似網頁
可以看到,GOOGLE在PDF檔前加上了[PDF]的標記,而且,GOOGLE把PDF檔轉換成了文字檔,點擊“一般文字檔”,可以粗略的查看該PDF文檔的大致內容。當然,PDF原有的圖片以及格式是沒有了。
搜索PDF文檔還可以用“inurl:”語法。比如上例,也可以用“inurl:pdf ecommerce”。搜索結果數量大致相同,不過查詢結果順序則略有很大差別。
注意,上述查詢均是對PDF內文的檢索,“ecommerce”這個關鍵字是包含在PDF文檔中的。
“filetype”的另一個強大用處則在圖片搜索。下文將對GOOGLE的圖片搜索功能作詳細說明,此處只是略提一下。進入“http://images.google.com/”,查找關於本拉登的JPG圖片。
搜索:“Bin Laden filetype:jpg”
結果:搜索有關 Bin Laden filetype:jpg 的圖片()。(試驗版) 共約有1,630項查詢結果,這是第1-20項 。 搜索用時0.14秒。
除此之外,我尚未發現其他的filetype用法。如果有誰知道,請給我發郵件。預先感謝。:)
5.3、搜索的關鍵字包含在URL鏈結中
“inurl”語法返回的網頁鏈結中包含第一個關鍵字,後面的關鍵字則出現在鏈結中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源鏈結,然後,用第二個關鍵字確定是否有某項具體資料。INURL語法和基本搜索語法的最大區別在於,前者通常能提供非常精確的專題資料。
示例:查找MIDI曲“滄海一聲笑”。
搜索:“inurl:midi 滄海一聲笑”
結果:已搜索有關inurl:midi 滄海一聲笑的中文(簡體)網頁。 共約有16項查詢結果,這是第1-10項 。 搜索用時0.16秒。
示例:查找微軟網站上關於windows2000的安全課題資料。
搜索:“inurl:security windows2000 site:microsoft.com”
結果:已在microsoft.com內搜索有關inurl:security windows2000 的網頁。 共約有188項查詢結果,這是第1-10項 。 搜索用時0.27秒。
注意:“inurl:”後面不能有空格,GOOGLE也不對URL符號如“/”進行搜索。例如,GOOGLE會把“cgi-bin/phf”中的“/”當成空格處理。
“allinurl”語法返回的網頁的鏈結中包含所有作用關鍵字。這個查詢的關鍵字只集中於網頁的鏈結字串。
示例:查找可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF腳本程式(這個腳本是不安全的),表現在鏈結中就是“功能變數名稱/cgi-bin/phf”。
語法:“allinurl:"cgi-bin" phf +com”
搜索:已向英特網搜索allinurl:"cgi-bin" phf +com. 共約有37項查詢結果,這是第1-10項 。 搜索用時0.36秒。
5.4、搜索的關鍵字包含在網頁標題中
“intitle”和“allintitle”的用法類似於上面的inurl和allinurl,只是後者對URL進行查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標記語言title中之間的部分。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,只查詢標題欄,通常也可以找到高相關率的專題頁面。
示例:查找日本明星藤原紀香的照片集。
搜索:“intitle:藤原紀香 寫真”
結果:已搜索有關intitle:藤原紀香 寫真的中文(簡體)網頁。 共約有465項查詢結果,這是第1-10項 。 搜索用時0.16秒。
6、其他罕用語法
6.1、搜索所有鏈結到某個URL位址的網頁
如果你擁有一個個人網站,估計很想知道有多少人對你的網站作了鏈結。而“link”語法就能讓你迅速達到這個目的。
示例:搜索所有含指向華軍軟體園“www.newhua.com”鏈結的網頁。
搜索:“link:www.newhua.com”
結果:搜索有鏈結到www.newhua.com的網頁 。 共約有856項查詢結果,這是第1-10項 。 搜索用時0.17秒。
注意:“link”不能與其他語法相混合操作,所以“link:”後面即使有空格,也將被GOOGLE忽略。
7、圖片搜索
我不得不承認,GOOGLE的圖片搜索功能真是個偉大的發明!!GOOGLE自稱可以檢索320,000,000張圖片,並稱自己為“互聯網上最好用的圖像搜索工具”。儘管目前該功能尚在B測試階段,但的確已經非常好用!
GOOGLE首頁點擊“圖像”鏈結就進入了GOOGLE的圖像搜索介面“images.google.com”。你可以在關鍵字欄位元內輸入描述圖像內容的關鍵字,如“britney spears”,就會搜索到大量的小甜甜布蘭妮的圖片。我目前尚不是很清楚圖片的排列標準,不過以觀察來看,似乎圖片檔案名完全符合關鍵字的結果排列比較考前,然後才按照普通的頁面搜索時的標準排列。
GOOGLE給出的搜索結果具有一個直觀的縮略圖(THUMBNAIL),以及對該縮略圖的簡單描述,如圖像檔案名稱,以及大小等。點擊縮略圖,頁面分成兩禎,上禎是圖像之縮略圖,以及頁面鏈結,而下禎,則是該圖像所處的頁面。螢幕右上角有一個“Remove Frame”的按鈕,可以把框架頁面迅速切換到單禎的結果頁面,非常方便。
GOOGLE圖像搜索目前支援的語法包括“+”,“-”,“OR”,“site”和“filetype”。
示例:查找美國教育網上的宇宙大爆炸jpg圖片
搜索:“BIG BANG filetype:jpg site:edu”
結果:搜索有關 BIG BANG filetype:jpg site:edu 的圖片()。(試驗版) 共約有337項查詢結果,這是第1-20項 。 搜索用時1.99秒。
8、目錄內搜索
如果不想搜索廣泛的網頁,而是想尋找某些專題網站,可以訪問GOOGLE的分類目錄“http://directory.google. com/” ,中文目錄是“http://directory.google.com/Top/World/Chinese_Simplified/”。 目前GOOGLE使用的分類目錄採用了ODP的內容。“Open Directory Project”是網景公司所主持的一項大型公共網頁目錄。由全世界各地的義務編輯人員來審核挑選網頁,並依照網頁的性質及內容來分門別類。因此,在某一目錄門類中進行搜索往往能有更高的命中率。另外,GOOGLE根據其專業的“網頁級別”(PageRank)技術對目錄中登錄的網站進行了排序,可以讓一般的檢索更具高效率。
示例:查找一下關於癌症治療以及護理方面的中文資料
搜索:先進入中文簡體分類目錄,再進入“健康”子目錄,確定選中“只在健康中搜索”單選項目。在搜索欄內填入“癌症”進行搜索。
結果:在分類健康項中搜索癌症。 共約有370項查詢結果,這是第1-10項 。 搜索用時0.05秒。
可以看到,上述查詢結果比普通的檢索更有效,因為在分類健康項中進行搜索剔除了很多不相關的諸如新聞之類的無效資訊。不過,對於中文用戶而言,現在最大的問題是志願的中文目錄編輯太少,導致收錄站點太少,因此搜索結果範圍顯得過於狹隘。但願這個問題能隨著GOOGLE以及ODP項目在國內名聲的響亮而能得到改觀。
-----
留言列表