幾年前,當我第一次為搜索初學者做一份書目指南之前,我不得不靜下心去想,到底什么是我能教給他們的最簡單、最重要的東西?什么是我們職業搜索者知道的,而這些學生不懂的?什么課程是導致找到和找不到區別產生的原因以及是他們需要學習的?我的腦海中逐漸浮現四句話,我在辦公室中把它們寫在一張紙上:我的四條搜索準則。在逝去的這幾年中,我已在這基礎上加了一些內容。但是,我和我的同行們仍然清楚的了解并在實踐它們,在我看來,這就是我們職業搜索者和普通用戶之所以區別的地方。
我沒有發明這些準則,我只是使它們條理化文字化。條理化文字化--當職業搜索者收到人們的問題時做的另一件事。
準則一: 去信息應該在的地方
(Rule One:Go Where It Is )
普通人或許以為,象我們這樣擅長搜索的人,一定是因為知道一些使用搜索引擎的秘籍。其實,我們真正知道的,恰恰是這個事實:對于很多問題,是無法用搜索引擎解決的,因為互聯網上并不存在所需信息。也許答案藏在1935年出版的一本《哈潑的》中(Harper's),或者藏在1865年出版的一張《紐約時報》中,或者藏在一本對比不同歐洲國家醫療保險管理政策的書中,或者藏在一段未發表的論文中,或者藏在一份寶時潔(P&G)做的產權市場調查中,或者藏在1965年的一場參議院聽證會記錄中。
當任何人向我們提出一個問題時,無論是否熟悉該領域,我們做的第一件事,是搜尋我們腦海中積累的信息地理圖。當我們說出"讓我們試一下聯機醫學文獻分析和檢索系統(MEDLINE)"時,我們已經評估過用戶的需求(關于某種醫藥環境下的特殊療法)和知識水平(醫學教授或學生),并確定了哪里最可能找得到符合他們需求的信息(醫療文獻中的文章)。
無論那問題是什么,我們都會經歷同樣的信息地理圖搜尋和確認過程:被問及藝術品的復制時,我們會去搜尋藝術百科全書或者互聯網;被問及1966年1美元可以買到什么時,我們會去搜尋《美國歷史統計》(Historical Statistics)或《美國統計摘要》(Statistical Abstracts)或者1966年的本地報紙廣告。不同的工具可以找回不同的信息,而圖書館員們的技巧正是了解哪一種工具可以最好的完成哪一種任務。
當一個圖書館員問我特拉華流域(Delaware watershed)的原始信息時,我的第一個反應是:
· 美國陸軍工程軍團(Army Corps of Engineers).
· 美國漁業及野生動物服務(U.S. Fish and Wildlife Service).
· 美國環保局(Environmental Protection Agency).
· 特拉華州的同類部門(equivalent agencies for the state of Delaware).
明確了這個主題,我就在searchgov.com作了一次搜索,果然,從聯邦政府的這幾個部門和其它部門發現了一大堆相關文件。但是聯想到大多數關心流域問題的人都是科學家,我也用了SciSeek.com去搜索互聯網上的科學網站,那使我找到了大量其它與這個流域的環境、化學、工程相關的信息。
然后,我通過EBSCOhost 搜索多個全文數據庫,那使我找到了從包括科學雜志、旅行雜志和體育雜志上的相關文章。
圖書館員們也明白,不同信息源的風格是互相不可代替的。雜志和報紙會用讀者簡明易懂的語言解釋復雜晦澀的主題,而學術和專業雜志則發表原始的研究文章(僅僅是普通用戶問題中的"研究"可能自動把我們送向一個雜志全文檢索庫)。但是因為"研究"必然被限制在一個主題的很小的、可掌控的領域,它就象一個難題的小塊。當我們想看這一個小塊的風格時,或者當我們想知道一個主題的廣泛背景時,我們會去找書,書會概括和讓你理解一個最初的研究。政府文件則會提供統計、法律、金融信息,甚至會有關于"我們是誰?"、"我們擁有什么?"、"我們已經到了哪一步?"等公開資料。
我們了解每一種信息源風格的長處和短處。互聯網長于圖片和示范,對于政府文件,對于FAQ文檔,對于討論組,對于傳輸全文數據庫;但是我們也知道,互聯網對于1995年前的雜志和政府文件,幾乎是沒什么用的。對于這些資料,我們仍然需要使用我們的舊索引和期刊備份。我們也比僅僅信任互聯網權威和準確性知道得更多,你也許會在互聯網上找到一段引證 -- 甚至它的好幾個版本-- 但是不要指望找到它的正確起源。我們對于互聯網信息源的態度是冷戰式的懷疑:信任它,但是只有在確證以后。
我們知道誰最可能制造不同類別的信息。對于大多數嚴肅的統計數據,我們會從《美國統計摘要》開始,但是對于生活類統計數據,我們會去搜尋那些為需要推廣產品的廣告主們做的專業的市場調研報告。被問及美國男孩洗澡的頻度時,我查詢了一個全文商業期刊數據庫,查找會在諸如《美國人口統計數據》(American Demographics)等雜志上發表的市場調研報告。(順便提一下那問題的答案,答案有違我們的直覺:超過三分之一的男孩,每天至少洗澡兩次。)
我們知道,有時最好的信息源正是普通的人,作為個體的或作為群體之一的,對某主題有熱情的人。當我們的用戶需要關于糖尿病的可靠的、權威的信息時,我們會帶他們去美國糖尿病協會(American Diabetes Association)的網站;當我們的用戶想和有相同疾病經驗的人交流,想了解糖尿病患者如何生活時,我們會帶他們去相關的支持團體。
當我們想知道一種嶄新科技或策略是否有效時,我們會去找互聯網上的相關討論組。而當一個主題非常偏僻晦澀時,我們會直接上網,因為互聯網是那些擁有古怪偏好(如風笛、中世紀地圖、劣質的涂鴉作品)的人們分享他們熱情的最佳場所。
我們職業搜索者,完全可以被描述成信息世界中旅行者的向導: 我們之所以能幫助我們的旅行者快速到達目的地 ,是因為我們知道目的地在哪里,是因為我們知道最佳的路線是什么,因為我們知道應該坐飛機,火車,還是汽車。
準則二: 你得到什么答案,取決于你怎么提問
(Rule Two:The Answer You Get Depends on the Questions You Ask)
推論:問題決定答案,如果你不喜歡答案,那么換問題吧
普通人或許以為,圖書館員們一定知道所有的答案。其實,我們真正知道的,是如何問出好問題。我們知道如何在寬泛和特殊之間自如滑動調節搜索范圍,直到我們找到那任務最關鍵的影響因素。
我們用來滑動調節搜索范圍的方法之一,是語言。如果我們用一個特殊關鍵詞沒有發現足夠的信息,我們就會轉向概念更寬泛的一個層面;如果我們發現了太多信息,我們就會嘗試更特殊的關鍵詞。
舉例來說,當我們被要求尋找這方面的研究資料:肥胖者與身材標準者做相同的工作,是否肥胖者掙的錢更少? 一些我們會嘗試的關鍵詞,可能是"肥胖"或"體重"(obesity or weight),"薪水"或"工資"或"收入"(salary or wages or pay),"歧視"或"區別"(discrimination or differential)。我們也有可能使用更寬泛的陳述:肥胖和雇用歧視(Obesity and employment discrimination),這或許會找回各種關于歧視的研究資料:面試,薪水,評估,提升,等等。不管我們用哪種關鍵詞組合,我們都知道,我們會得到不同的搜索結果,因此,我們當然會使用所有想得到的合理關鍵詞。而且,當我們點擊到有價值的新發現時,我們還會使用我們從連續的搜索過程中遇到的網頁中發現的任何新關鍵詞。
此外,我們還使用其它方法來滑動調節搜索范圍。當我們決定搜索主題標題時,我們會從最特殊的關鍵詞開始,以保證我們找回的文件和主題完全相關。當我們對找到什么相關內容幾乎不存指望,-- 當我們需要的只是damn fool luck, -- 我們會從最寬泛的關鍵詞開始搜索。一旦我們找到了什么資料,我們就會用盡技巧利用它,順藤摸瓜連本帶利找出更多相關資料。
當我們從概念最寬泛的關鍵詞開始搜索時,我們會使用"OR"組織關鍵詞,就象用一個拖網捕捉到四分之一英里內半徑內的每一條魚;并使用"AND"組織關鍵詞,用這個方法來滑動調節到最狹窄的搜索范圍,就象扔掉不合格的魚。
當我們想搜索無限信息宇宙中的一小塊時,-- 一個卡片目錄,或者《聯機醫學文獻分析和檢索系統》,或者一個特殊搜索引擎如searchgov.com -- 我們也是在搜索一個統一體的狹窄概念領域。
狹窄搜索的風險是:某些相關信息中并不含有我們使用的關鍵詞,或者我們選擇的特殊搜索引擎或數據庫中并沒有索引某些相關信息,因此我們可能錯過這些相關信息。而當我們從最寬泛概念開始搜索時,也要冒只找到無效結果的風險,比如當我測遍搜索引擎尋找一個名叫"E."的歌手信息時。
通過在寬泛和狹窄的概念之間滑動調節;組合不同的關鍵詞、不同的搜索方法、不同的搜索資源;總是想著還能找到其它什么內容;我們大幅度提高了這種可能性:不是為顧客發現一個答案,而是為顧客發現一個最佳答案。
準則三: 答案必須迎合需求
(Rule Three:The Answer Should Match the Information Need)
圖書館員們需要理解的,不僅是問題,還需要理解:哪一種答案會使顧客滿意。如果我們給他們的答案不是他們想要的那一種,那我們能算是回答了他們嗎:有人要一篇百科全書文章,你給他一摞書,雖然那摞書中有答案?有人要一個特定問題的口頭答案,你給他一個網站,雖然那網站中有答案?有位病人要了解他剛被診斷患上的一種疾病的信息,你給他一本專業醫學學術雜志上的晦澀文章,雖然那文章中有答案?有人僅僅想打印幾篇文章好帶回家去看,你給他一打文摘?
接受這個假設:圖書館員是一群迷失在獵獲的戰栗中的好學者。我們總是能更頑強的追溯蛛絲馬跡,跟那些在某方面有需求或感興趣的顧客相比,我們總是能找到更多的信息。除非我們是在幫一個學者做研究,我們面臨的問題通常不是找到信息,而是知道什么時候該停下來。-- 給一個禮貌的建議,當然,存在其它用戶可采用的途徑,他們應該要求更多。
準則四: 搜索是一個多步驟的過程
(Rule four:Research Is a Multi-Stage Process)
有時,獵獲過程只能是迂回曲折的。為了尋找歌手"E."的信息,我需要從一本搖滾百科全書或搖滾網站開始,我去了"終極樂隊名單"(UBL.com),在那里找到了"E."的一個傳記,一個音樂唱片分類目錄,他現在的樂隊The Eels的信息,他們的官方網站,以及巡回演出信息。
如果有人真的想尋找某個主題所有最細枝末節的信息,這會激活我們偵探犬般靈敏的本能,引發我們擁有的每一絲技巧。首先,我們會去每一個我們認為可能有所找信息的地方,搜索不止一個數據庫,而是每一個似乎可能的數據庫。我們會搜尋期刊數據庫,論文摘要,OCLC聯機聯合編目目錄(WorldCat),會議論文索引,等等。我們會急速走遍整個互聯網,既使用普通搜索引擎,也使用特殊搜索引擎、專業網站和看不見的數據庫。
每當我們發現什么的時候,我們都會從中觀察發掘更多線索。跟隨書目中的每一條信息,搜尋這些作者的更多作品,找到那些作者的e-mail,進行引用搜索,查找誰在引用他們的作品。每當我們發現有用的新關鍵詞時,我們都會回到我們已搜索過的地方,使用新關鍵詞再次搜索。當我們找到一些正是我們的顧客腦海中所想信息時,我們會極盡利用數據庫或搜索引擎提供的任何功能-- 可點擊的主題或者一個"more like this"的功能-- 尋找更多的類似條目。
準則五: 信息本身是無意義的,只有人提問之后才有價值
(Rule Five:信息 Is Meaningless Until Queried by Human Intelligence)
數據:瑞典是最大的烹調醬用戶。
數據:51%的圣路易士居民說他們從未去過圣路易士拱門。
數據:根據NEC研究院的資料,1.5% 的網站是色情網站。
現在你知道這些數據了,你更聰明了還是更happy了?事實上,你能有什么理由關心這些呢?沒有上下文,這些數據只是數據,不是信息。只有在我們象這樣提問時,它們才成為有價值的信息:
· 如果我計劃在瑞典做銷售莎莎醬,會面臨什么樣的競爭?
· 圣路易士是否應該面向本地居民做旅行宣傳廣告?
· 互聯網上的色情問題到底有多嚴重? (注意:解答這個問題需要遠超過以上數據的信息)
這個世界充滿了無窮無盡的內容:箭頭,陶器碎片,軟體動物化石,古老的文字和日記,五十年代的菜譜,壘高拼裝玩具,芭比娃娃。
所有這些數據都是無意義的,直到有人做一些事-- 提一個問題,把它們與其它數據放在一起,思考它們的意義,直到有人歸并這些碎片并發現一個過去的文明,或者在破爛文字中發現政治陰謀的痕跡,或者從這些舊菜譜中得知罐裝湯和袋裝食品是什么時候開始滲入我們生活的。
除非你知道自己要用它們做什么,隨便的數據堆積是無意義的。你必須從一個問題開始,或者一個主題,最好有一個明確的陳述不僅讓你明白什么信息是你需要的,而且讓你明白什么信息對你是無用的。如果你說你想找到專利權的經濟效果,你完全可以只聚焦于成功者和失敗者。
這意味著你可以忽略保護專利權的爭論以及什么發明可以授予專利的辯論。你的數據應該聚焦于股價、資產平衡表、和價格目錄。
準則六: 向你的答案提問 ―― 信息可能是真的,但仍然是錯的
(Rule Six:Question Your Answers - Information May Be True But Still Wrong)
我住在愛荷華州的達芬波特市。2001年5月,我們招待了天知道多少網絡新聞記者,他們都把他們的相機指向我們的,被密西西比河包圍和淹沒的,棒球館。那些相機顯示了我們的河流對這國家的驅動-- 淹沒-- 小隊志愿者在填充沙袋。令人小小驚訝的是每一個我打過電話的親戚都提出送浮袋給我,但我不需要它。
這些記者一直在報道著事實,直到我們離開。他們忽略的是告訴剩余的故事,把相機鏡頭移向四周,或者移向旁邊。如果他們有那么做,那么這個國家就會認識到:達芬波特市建在一座驚人高大的山上,99%的城區都沒有收到洪水的影響,只要不遇到更糟的情況。
洪峰到來的那一天,太陽高照,而我正在監督一隊建筑工人為我的房子蓋一個日光浴室。
這是一個令我們警醒的故事。這些記者無疑是誠實的,他們不會故意歪曲事實,但是某種程度上他們又確實這么做了。必須記住,某些我們利用的信息源,比如任何一方的政客在談到2000大選期間發生在佛羅里達的戲劇性變化時,都使數據顯得支持他們那個版本的真實。我們必須明白,所有我們的知識都是不完整的的臨時的,會隨著新的證據和理論的出現而變化。三十年以前,恐龍還被認為是冷血動物,但現在它們不是了。恐龍自己從來沒變過,是人,是新的證據和解釋使之變化。所以我們總是傾向于不完全肯定我們給別人的答案。
我們對如何向數據提問有足夠的了解。當我們確信一個不可能為零的搜索結果為零時,我們會重新審視我們的搜索策略--我們是否拼錯單詞或姓名了?我們是否找錯地方了?我們向統計數據提問,問"這是誰說的?",問"他們是怎么知道的?quot;,問"他們的方法是什么?",如果有人給我們成年美國人挖鼻孔的精確比例,我們足夠清楚必須懷疑有多少人會誠實的回答這個問題。我們不會滿足于獲得的第一個答案。我們不斷地求證,求證,再求證。
準則七: 問圖書館員
(Rule Seven:Ask a Lbrarian)
我們會……,廢話,我們當然會問圖書館員。
· 因為我們冷靜的了解我們的收藏。
· 因為有時人們如果在預期地點沒有找到預期答案,就會放棄。(有多少次真實的問題被隱蔽在表面問題的背后:"讀者指南在哪兒?")
· 因為我們努力發現人們真正需求的信息,并且把它轉化成我們的系統能理解的問題。
· 因為我們更擅長于面面俱到的考慮一個事物的前前后后-- 如果我們沒有關于暹羅貓的書,我們還有關于貓類繁殖和飼養的書;我們還有雜志索引和數據庫可能幫我們找到關于暹羅貓的文章;我們甚至可能在顧客不屑一顧的兒童書籍中找到一本合適的書。
· 因為我們了解如何命令各種數據庫起立、打滾、舔我們的臉。我們的用戶沒有找到答案的事實,并不意味著答案不存在。(誠然,事實可能是我們也找不到答案。)
· 因為,跟我們的用戶不同,我們在去開始搜尋的時候,是帶著太平洋底的深信,深信答案存在,而以上帝的名義,憑作為圖書館員的榮譽,我們會把它找出來。
問題是,為什么會只有我們,幾乎沒有別人再懂這些?
這些準則真被當做準則受到重視嗎?它們應該是的,因為我所知道的每一個優秀圖書館員,所有時間都在實踐它們。這可以用來解釋,為什么我們能夠如此一致的、輕易的,制造一些超越我們的目錄和計算機的神秘,找到使外行吃驚的答案。
我常常暗示我的學生,信息就象匹薩餅,-- 你越餓,你就吃得越多。你的搜索需求越徹底,你越需要徹底搜索所有可利用資源。這是我的猜測,關于什么格式的信息分別占據了在過去3個世紀中累計總信息的多少百分比。我相信由地區、國家、國際政府創造的文件是這幾個世紀中最大的獨立信息源;然后是書和期刊;即使已有著超過10億網頁,而且在以每天幾百萬的速度增加,互聯網在能有競爭力之前,還有很多需要迎頭趕上的地方;剩下的小塊還包括諸如論文、會議文獻、錄像、電影、圖片、地圖、數據庫,等等。
這個信息匹薩餅的每一個小碎片,都還能被分割得最小,甚至一個如雜志或期刊這樣的小碎片,也還能被細分成索引不同內容的不同數據庫--聯機醫學文獻分析和檢索系統(Medline), 科教資源信息中心(ERIC),生物學文摘(Biological Abstracts),美國國立農業圖書館館藏檢索(Agricola)。如果你真的想進行完整的搜索,檢查支離破碎的每一個可能小片。
下邊這些是最初的信息準則,比我當初寫下時和謄寫時已漂亮點了。從那以后它們已有所成長:
1. Go where it is.
2. The answer you get depends on the question you ask.
3. Research is a multi-stage process.
4. Ask a librarian.
我沒有發明這些準則,我只是使它們條理化文字化。條理化文字化--當職業搜索者收到人們的問題時做的另一件事。
準則一: 去信息應該在的地方
(Rule One:Go Where It Is )
普通人或許以為,象我們這樣擅長搜索的人,一定是因為知道一些使用搜索引擎的秘籍。其實,我們真正知道的,恰恰是這個事實:對于很多問題,是無法用搜索引擎解決的,因為互聯網上并不存在所需信息。也許答案藏在1935年出版的一本《哈潑的》中(Harper's),或者藏在1865年出版的一張《紐約時報》中,或者藏在一本對比不同歐洲國家醫療保險管理政策的書中,或者藏在一段未發表的論文中,或者藏在一份寶時潔(P&G)做的產權市場調查中,或者藏在1965年的一場參議院聽證會記錄中。
當任何人向我們提出一個問題時,無論是否熟悉該領域,我們做的第一件事,是搜尋我們腦海中積累的信息地理圖。當我們說出"讓我們試一下聯機醫學文獻分析和檢索系統(MEDLINE)"時,我們已經評估過用戶的需求(關于某種醫藥環境下的特殊療法)和知識水平(醫學教授或學生),并確定了哪里最可能找得到符合他們需求的信息(醫療文獻中的文章)。
無論那問題是什么,我們都會經歷同樣的信息地理圖搜尋和確認過程:被問及藝術品的復制時,我們會去搜尋藝術百科全書或者互聯網;被問及1966年1美元可以買到什么時,我們會去搜尋《美國歷史統計》(Historical Statistics)或《美國統計摘要》(Statistical Abstracts)或者1966年的本地報紙廣告。不同的工具可以找回不同的信息,而圖書館員們的技巧正是了解哪一種工具可以最好的完成哪一種任務。
當一個圖書館員問我特拉華流域(Delaware watershed)的原始信息時,我的第一個反應是:
· 美國陸軍工程軍團(Army Corps of Engineers).
· 美國漁業及野生動物服務(U.S. Fish and Wildlife Service).
· 美國環保局(Environmental Protection Agency).
· 特拉華州的同類部門(equivalent agencies for the state of Delaware).
明確了這個主題,我就在searchgov.com作了一次搜索,果然,從聯邦政府的這幾個部門和其它部門發現了一大堆相關文件。但是聯想到大多數關心流域問題的人都是科學家,我也用了SciSeek.com去搜索互聯網上的科學網站,那使我找到了大量其它與這個流域的環境、化學、工程相關的信息。
然后,我通過EBSCOhost 搜索多個全文數據庫,那使我找到了從包括科學雜志、旅行雜志和體育雜志上的相關文章。
圖書館員們也明白,不同信息源的風格是互相不可代替的。雜志和報紙會用讀者簡明易懂的語言解釋復雜晦澀的主題,而學術和專業雜志則發表原始的研究文章(僅僅是普通用戶問題中的"研究"可能自動把我們送向一個雜志全文檢索庫)。但是因為"研究"必然被限制在一個主題的很小的、可掌控的領域,它就象一個難題的小塊。當我們想看這一個小塊的風格時,或者當我們想知道一個主題的廣泛背景時,我們會去找書,書會概括和讓你理解一個最初的研究。政府文件則會提供統計、法律、金融信息,甚至會有關于"我們是誰?"、"我們擁有什么?"、"我們已經到了哪一步?"等公開資料。
我們了解每一種信息源風格的長處和短處。互聯網長于圖片和示范,對于政府文件,對于FAQ文檔,對于討論組,對于傳輸全文數據庫;但是我們也知道,互聯網對于1995年前的雜志和政府文件,幾乎是沒什么用的。對于這些資料,我們仍然需要使用我們的舊索引和期刊備份。我們也比僅僅信任互聯網權威和準確性知道得更多,你也許會在互聯網上找到一段引證 -- 甚至它的好幾個版本-- 但是不要指望找到它的正確起源。我們對于互聯網信息源的態度是冷戰式的懷疑:信任它,但是只有在確證以后。
我們知道誰最可能制造不同類別的信息。對于大多數嚴肅的統計數據,我們會從《美國統計摘要》開始,但是對于生活類統計數據,我們會去搜尋那些為需要推廣產品的廣告主們做的專業的市場調研報告。被問及美國男孩洗澡的頻度時,我查詢了一個全文商業期刊數據庫,查找會在諸如《美國人口統計數據》(American Demographics)等雜志上發表的市場調研報告。(順便提一下那問題的答案,答案有違我們的直覺:超過三分之一的男孩,每天至少洗澡兩次。)
我們知道,有時最好的信息源正是普通的人,作為個體的或作為群體之一的,對某主題有熱情的人。當我們的用戶需要關于糖尿病的可靠的、權威的信息時,我們會帶他們去美國糖尿病協會(American Diabetes Association)的網站;當我們的用戶想和有相同疾病經驗的人交流,想了解糖尿病患者如何生活時,我們會帶他們去相關的支持團體。
當我們想知道一種嶄新科技或策略是否有效時,我們會去找互聯網上的相關討論組。而當一個主題非常偏僻晦澀時,我們會直接上網,因為互聯網是那些擁有古怪偏好(如風笛、中世紀地圖、劣質的涂鴉作品)的人們分享他們熱情的最佳場所。
我們職業搜索者,完全可以被描述成信息世界中旅行者的向導: 我們之所以能幫助我們的旅行者快速到達目的地 ,是因為我們知道目的地在哪里,是因為我們知道最佳的路線是什么,因為我們知道應該坐飛機,火車,還是汽車。
準則二: 你得到什么答案,取決于你怎么提問
(Rule Two:The Answer You Get Depends on the Questions You Ask)
推論:問題決定答案,如果你不喜歡答案,那么換問題吧
普通人或許以為,圖書館員們一定知道所有的答案。其實,我們真正知道的,是如何問出好問題。我們知道如何在寬泛和特殊之間自如滑動調節搜索范圍,直到我們找到那任務最關鍵的影響因素。
我們用來滑動調節搜索范圍的方法之一,是語言。如果我們用一個特殊關鍵詞沒有發現足夠的信息,我們就會轉向概念更寬泛的一個層面;如果我們發現了太多信息,我們就會嘗試更特殊的關鍵詞。
舉例來說,當我們被要求尋找這方面的研究資料:肥胖者與身材標準者做相同的工作,是否肥胖者掙的錢更少? 一些我們會嘗試的關鍵詞,可能是"肥胖"或"體重"(obesity or weight),"薪水"或"工資"或"收入"(salary or wages or pay),"歧視"或"區別"(discrimination or differential)。我們也有可能使用更寬泛的陳述:肥胖和雇用歧視(Obesity and employment discrimination),這或許會找回各種關于歧視的研究資料:面試,薪水,評估,提升,等等。不管我們用哪種關鍵詞組合,我們都知道,我們會得到不同的搜索結果,因此,我們當然會使用所有想得到的合理關鍵詞。而且,當我們點擊到有價值的新發現時,我們還會使用我們從連續的搜索過程中遇到的網頁中發現的任何新關鍵詞。
此外,我們還使用其它方法來滑動調節搜索范圍。當我們決定搜索主題標題時,我們會從最特殊的關鍵詞開始,以保證我們找回的文件和主題完全相關。當我們對找到什么相關內容幾乎不存指望,-- 當我們需要的只是damn fool luck, -- 我們會從最寬泛的關鍵詞開始搜索。一旦我們找到了什么資料,我們就會用盡技巧利用它,順藤摸瓜連本帶利找出更多相關資料。
當我們從概念最寬泛的關鍵詞開始搜索時,我們會使用"OR"組織關鍵詞,就象用一個拖網捕捉到四分之一英里內半徑內的每一條魚;并使用"AND"組織關鍵詞,用這個方法來滑動調節到最狹窄的搜索范圍,就象扔掉不合格的魚。
當我們想搜索無限信息宇宙中的一小塊時,-- 一個卡片目錄,或者《聯機醫學文獻分析和檢索系統》,或者一個特殊搜索引擎如searchgov.com -- 我們也是在搜索一個統一體的狹窄概念領域。
狹窄搜索的風險是:某些相關信息中并不含有我們使用的關鍵詞,或者我們選擇的特殊搜索引擎或數據庫中并沒有索引某些相關信息,因此我們可能錯過這些相關信息。而當我們從最寬泛概念開始搜索時,也要冒只找到無效結果的風險,比如當我測遍搜索引擎尋找一個名叫"E."的歌手信息時。
通過在寬泛和狹窄的概念之間滑動調節;組合不同的關鍵詞、不同的搜索方法、不同的搜索資源;總是想著還能找到其它什么內容;我們大幅度提高了這種可能性:不是為顧客發現一個答案,而是為顧客發現一個最佳答案。
準則三: 答案必須迎合需求
(Rule Three:The Answer Should Match the Information Need)
圖書館員們需要理解的,不僅是問題,還需要理解:哪一種答案會使顧客滿意。如果我們給他們的答案不是他們想要的那一種,那我們能算是回答了他們嗎:有人要一篇百科全書文章,你給他一摞書,雖然那摞書中有答案?有人要一個特定問題的口頭答案,你給他一個網站,雖然那網站中有答案?有位病人要了解他剛被診斷患上的一種疾病的信息,你給他一本專業醫學學術雜志上的晦澀文章,雖然那文章中有答案?有人僅僅想打印幾篇文章好帶回家去看,你給他一打文摘?
接受這個假設:圖書館員是一群迷失在獵獲的戰栗中的好學者。我們總是能更頑強的追溯蛛絲馬跡,跟那些在某方面有需求或感興趣的顧客相比,我們總是能找到更多的信息。除非我們是在幫一個學者做研究,我們面臨的問題通常不是找到信息,而是知道什么時候該停下來。-- 給一個禮貌的建議,當然,存在其它用戶可采用的途徑,他們應該要求更多。
準則四: 搜索是一個多步驟的過程
(Rule four:Research Is a Multi-Stage Process)
有時,獵獲過程只能是迂回曲折的。為了尋找歌手"E."的信息,我需要從一本搖滾百科全書或搖滾網站開始,我去了"終極樂隊名單"(UBL.com),在那里找到了"E."的一個傳記,一個音樂唱片分類目錄,他現在的樂隊The Eels的信息,他們的官方網站,以及巡回演出信息。
如果有人真的想尋找某個主題所有最細枝末節的信息,這會激活我們偵探犬般靈敏的本能,引發我們擁有的每一絲技巧。首先,我們會去每一個我們認為可能有所找信息的地方,搜索不止一個數據庫,而是每一個似乎可能的數據庫。我們會搜尋期刊數據庫,論文摘要,OCLC聯機聯合編目目錄(WorldCat),會議論文索引,等等。我們會急速走遍整個互聯網,既使用普通搜索引擎,也使用特殊搜索引擎、專業網站和看不見的數據庫。
每當我們發現什么的時候,我們都會從中觀察發掘更多線索。跟隨書目中的每一條信息,搜尋這些作者的更多作品,找到那些作者的e-mail,進行引用搜索,查找誰在引用他們的作品。每當我們發現有用的新關鍵詞時,我們都會回到我們已搜索過的地方,使用新關鍵詞再次搜索。當我們找到一些正是我們的顧客腦海中所想信息時,我們會極盡利用數據庫或搜索引擎提供的任何功能-- 可點擊的主題或者一個"more like this"的功能-- 尋找更多的類似條目。
準則五: 信息本身是無意義的,只有人提問之后才有價值
(Rule Five:信息 Is Meaningless Until Queried by Human Intelligence)
數據:瑞典是最大的烹調醬用戶。
數據:51%的圣路易士居民說他們從未去過圣路易士拱門。
數據:根據NEC研究院的資料,1.5% 的網站是色情網站。
現在你知道這些數據了,你更聰明了還是更happy了?事實上,你能有什么理由關心這些呢?沒有上下文,這些數據只是數據,不是信息。只有在我們象這樣提問時,它們才成為有價值的信息:
· 如果我計劃在瑞典做銷售莎莎醬,會面臨什么樣的競爭?
· 圣路易士是否應該面向本地居民做旅行宣傳廣告?
· 互聯網上的色情問題到底有多嚴重? (注意:解答這個問題需要遠超過以上數據的信息)
這個世界充滿了無窮無盡的內容:箭頭,陶器碎片,軟體動物化石,古老的文字和日記,五十年代的菜譜,壘高拼裝玩具,芭比娃娃。
所有這些數據都是無意義的,直到有人做一些事-- 提一個問題,把它們與其它數據放在一起,思考它們的意義,直到有人歸并這些碎片并發現一個過去的文明,或者在破爛文字中發現政治陰謀的痕跡,或者從這些舊菜譜中得知罐裝湯和袋裝食品是什么時候開始滲入我們生活的。
除非你知道自己要用它們做什么,隨便的數據堆積是無意義的。你必須從一個問題開始,或者一個主題,最好有一個明確的陳述不僅讓你明白什么信息是你需要的,而且讓你明白什么信息對你是無用的。如果你說你想找到專利權的經濟效果,你完全可以只聚焦于成功者和失敗者。
這意味著你可以忽略保護專利權的爭論以及什么發明可以授予專利的辯論。你的數據應該聚焦于股價、資產平衡表、和價格目錄。
準則六: 向你的答案提問 ―― 信息可能是真的,但仍然是錯的
(Rule Six:Question Your Answers - Information May Be True But Still Wrong)
我住在愛荷華州的達芬波特市。2001年5月,我們招待了天知道多少網絡新聞記者,他們都把他們的相機指向我們的,被密西西比河包圍和淹沒的,棒球館。那些相機顯示了我們的河流對這國家的驅動-- 淹沒-- 小隊志愿者在填充沙袋。令人小小驚訝的是每一個我打過電話的親戚都提出送浮袋給我,但我不需要它。
這些記者一直在報道著事實,直到我們離開。他們忽略的是告訴剩余的故事,把相機鏡頭移向四周,或者移向旁邊。如果他們有那么做,那么這個國家就會認識到:達芬波特市建在一座驚人高大的山上,99%的城區都沒有收到洪水的影響,只要不遇到更糟的情況。
洪峰到來的那一天,太陽高照,而我正在監督一隊建筑工人為我的房子蓋一個日光浴室。
這是一個令我們警醒的故事。這些記者無疑是誠實的,他們不會故意歪曲事實,但是某種程度上他們又確實這么做了。必須記住,某些我們利用的信息源,比如任何一方的政客在談到2000大選期間發生在佛羅里達的戲劇性變化時,都使數據顯得支持他們那個版本的真實。我們必須明白,所有我們的知識都是不完整的的臨時的,會隨著新的證據和理論的出現而變化。三十年以前,恐龍還被認為是冷血動物,但現在它們不是了。恐龍自己從來沒變過,是人,是新的證據和解釋使之變化。所以我們總是傾向于不完全肯定我們給別人的答案。
我們對如何向數據提問有足夠的了解。當我們確信一個不可能為零的搜索結果為零時,我們會重新審視我們的搜索策略--我們是否拼錯單詞或姓名了?我們是否找錯地方了?我們向統計數據提問,問"這是誰說的?",問"他們是怎么知道的?quot;,問"他們的方法是什么?",如果有人給我們成年美國人挖鼻孔的精確比例,我們足夠清楚必須懷疑有多少人會誠實的回答這個問題。我們不會滿足于獲得的第一個答案。我們不斷地求證,求證,再求證。
準則七: 問圖書館員
(Rule Seven:Ask a Lbrarian)
我們會……,廢話,我們當然會問圖書館員。
· 因為我們冷靜的了解我們的收藏。
· 因為有時人們如果在預期地點沒有找到預期答案,就會放棄。(有多少次真實的問題被隱蔽在表面問題的背后:"讀者指南在哪兒?")
· 因為我們努力發現人們真正需求的信息,并且把它轉化成我們的系統能理解的問題。
· 因為我們更擅長于面面俱到的考慮一個事物的前前后后-- 如果我們沒有關于暹羅貓的書,我們還有關于貓類繁殖和飼養的書;我們還有雜志索引和數據庫可能幫我們找到關于暹羅貓的文章;我們甚至可能在顧客不屑一顧的兒童書籍中找到一本合適的書。
· 因為我們了解如何命令各種數據庫起立、打滾、舔我們的臉。我們的用戶沒有找到答案的事實,并不意味著答案不存在。(誠然,事實可能是我們也找不到答案。)
· 因為,跟我們的用戶不同,我們在去開始搜尋的時候,是帶著太平洋底的深信,深信答案存在,而以上帝的名義,憑作為圖書館員的榮譽,我們會把它找出來。
問題是,為什么會只有我們,幾乎沒有別人再懂這些?
這些準則真被當做準則受到重視嗎?它們應該是的,因為我所知道的每一個優秀圖書館員,所有時間都在實踐它們。這可以用來解釋,為什么我們能夠如此一致的、輕易的,制造一些超越我們的目錄和計算機的神秘,找到使外行吃驚的答案。
我常常暗示我的學生,信息就象匹薩餅,-- 你越餓,你就吃得越多。你的搜索需求越徹底,你越需要徹底搜索所有可利用資源。這是我的猜測,關于什么格式的信息分別占據了在過去3個世紀中累計總信息的多少百分比。我相信由地區、國家、國際政府創造的文件是這幾個世紀中最大的獨立信息源;然后是書和期刊;即使已有著超過10億網頁,而且在以每天幾百萬的速度增加,互聯網在能有競爭力之前,還有很多需要迎頭趕上的地方;剩下的小塊還包括諸如論文、會議文獻、錄像、電影、圖片、地圖、數據庫,等等。
這個信息匹薩餅的每一個小碎片,都還能被分割得最小,甚至一個如雜志或期刊這樣的小碎片,也還能被細分成索引不同內容的不同數據庫--聯機醫學文獻分析和檢索系統(Medline), 科教資源信息中心(ERIC),生物學文摘(Biological Abstracts),美國國立農業圖書館館藏檢索(Agricola)。如果你真的想進行完整的搜索,檢查支離破碎的每一個可能小片。
下邊這些是最初的信息準則,比我當初寫下時和謄寫時已漂亮點了。從那以后它們已有所成長:
1. Go where it is.
2. The answer you get depends on the question you ask.
3. Research is a multi-stage process.
4. Ask a librarian.