Текст книги "Интернет. Новые возможности. Трюки и эффекты"
Автор книги: Надежда Баловсяк
Жанр: Интернет, Компьютеры
сообщить о неприемлемом содержимом
Текущая страница: 13 (всего у книги 23 страниц)
Глава 4
Секреты поиска в Интернете
– Как функционируют поисковые машины и как правильно строить запросы
– Специальные виды поиска
– Эффективный поиск в Google
– «Яндекс» на полную мощь
– Поисковые программы
– Онлайновый метапоиск
– Пиринговые сети
– Архив Интернета
Поиск информации в Интернете – одна из самых частых операций, овладеть которой должен каждый пользователь компьютера.
Как функционируют поисковые машины и как правильно строить запросы
Современные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете.
Принцип их работы состоит в следующем: время от времени они просматривают веб-страницы и регистрируют появившиеся там изменения. На этой основе создается база данных ссылок на веб-страницы. При ее формировании поисковые машины обращают внимание на некоторые дополнительные элементы, например на то, как часто встречается слово на странице, выделено ли оно, сколько ссылок на данный документ есть на других сайтах и др. Все эти сведения также будут учитываться при поиске.
Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать возникнувшие там изменения.
Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся.
Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины – «веса» слова. Как раз на основе этих данных поисковая машина формирует списки ссылок, упорядоченные по весу слов поискового запроса, а также с учетом его местонахождения (в ссылках, метатегах, заголовке страницы и т. п.). Следует заметить, что у каждого коммерческого поисковика есть своя формула для вычисления веса ключевых слов при индексации. Это одна из причин, почему по одному и тому же запросу поисковики выдают разные результаты.
Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность – это степень соответствия найденной страницы поисковому запросу.
Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые соответствуют поисковому запросу.
Однако, несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются между собой целым рядом параметров. Среди них: релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы.
Наряду с этим существуют и другие различия: языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов и др. Это является еще одной причиной того, что применение разных поисковых машин дает различные результаты.
Итак, поисковая машина формирует список документов на основе сформированного пользователем запроса. Если запрос не выражает в полной мере суть поиска, его результаты не будут соответствовать тому, что пользователю собственно нужно. Поэтому в первую очередь необходимо уметь правильно создавать поисковые запросы. Их составляют так, чтобы область поиска была максимально конкретизирована, а значит, сужена.
ПРИМЕЧАНИЕ
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже – имена прилагательные, а вот использование глаголов почти бесполезно.
Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку.
У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.
В настоящее время все поисковые механизмы ищут документы не только по строгому соответствию введенному запросу – все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе, а также с учетом синонимов (то есть не только в определенном падеже и числе, но и в других).
Согласно общей классификации, поиск разделяют на простой, расширенный и сложный. Чаще всего большинство пользователей используют первый вариант. Принцип его использования состоит в формулировании запроса и получении списка ссылок, соответствующих ему.
Самая важная задача этого этапа – правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов.
При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск– по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса. Это может быть один из двух операторов: AND (поиск по всем словам) или OR (по каждому в отдельности).
Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос информационная компетентность поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить другие логические операторы. Их синтаксис обычно уникален в каждой поисковой машине, поэтому о них поговорим чуть позже.
Специальные виды поиска
Если вы хотите найти в Интернете не список сайтов, а нечто более конкретное, например, программу или книгу, в этом случае вам лучше воспользоваться специальными поисковыми машинами или же, в крайнем случае, специальными возможностями обычных поисковых машин.
Для поиска файлов можно воспользоваться поисковой машиной FileSearch.ru (http://www.filesearch.ru). FileSearch.ru – это поисковая система, осуществляющая поиск среди миллионов файлов, собранных практически со всех российских FTP-серверов и нескольких тысяч зарубежных серверов. База поиска постоянно обновляется (рис. 4.1).
Если традиционные поисковые машины системы ищут на WWW-серверах и HTML-страницах по их содержимому, то FileSearch.ru ищет на FTP-серверах по именам самих файлов и каталогов. Если вам нужна какая-либо программа, игра и т. п., то на WWW-серверах вы, скорее всего, найдете их описание, а найти и скачать нужный файл можно именно с помощью FileSearch.ru.
Кроме файлов, система умеет производить поиск изображений, а также MP3– или видеофайлов. Принцип работы системы аналогичен поиску с помощью обычных поисковых систем.
Метапоисковая система http://www.metabot.ru умеет искать самые разнообразные файлы (MP3, видео и др.). Прежде всего необходимо выбрать нужный вид поиска, установив соответствующий переключатель в нужное положение. Затем следует ввести поисковый запрос. В результате программа предложит список найденных ссылок.
Поиск файлов по FTP-серверам поможет произвести система Rambler-ftp (http://ftpsearch.rambler.ru/db/ftpsearch). Здесь также можно искать файлы самых разнообразных форматов. Пользователям системы доступен простой и расширенный поиск. По схожему принципу работает сервис http://ru.findfile.net, который ищет более чем по 1900 FTP-серверам.
Рис. 4.1. Главная страница поисковика FileSearch.ru
Воспользоваться простым инструментом поиска по FTP-серверам можно на сайте http://ftpsearch.orbita.ru. Англоязычные поисковики размещены на сайтах http://www.ftpplanet.com, http://www.shareware.com.
Поисковая система Google позволяет осуществлять множество видов поиска. Доступ к некоторым из них возможен на странице англоязычного Google по адресу http://www.google.com. Например, воспользовавшись разделом Картинки, можно задать поиск картинок, Новости – поиск новостей. Cписок поисковых возможностей Google представлен на странице по адресу http://www.google.ru/intl/ru/options/.
Эффективный поиск в Google
Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. В большинстве поисковых машин эта функция реализована. Для этого предназначена специальная ссылка на главной странице, по которой переходят на страницу расширенного поиска.
В данном режиме с помощью специальных средств можно задать более точные критерии отбора и уточнить область поиска. В этом случае расширенным является только набор критериев, а вот область поиска в большинстве случаев существенно сужается.
Расширенный поиск в GoogleРассмотрим некоторые инструменты расширенного поиска. В поисковой системе Google доступна настройка типа содержания запроса на искомых страницах. При этом возможны следующие варианты.
– со всеми словами – в этом режиме поиска формируется список всех индексированных страниц, содержащих все ключевые слова, в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.
– с точной фразой – в данном режиме поиска составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки.
– с любым из слов – в результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае число полученных ссылок огромно. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, введите оба названия.
– без слов – если вы хотите исключить некоторые слова из результатов поиска, укажите их в данном поле (рис. 4.2).
Рис. 4.2. Окно расширенного поиска Google
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки рядом других параметров. Например, вы можете задать поиск страниц только на одном языке (параметр Язык), ограничить сайты определенным диапазоном дат обновления (это удобно, если нужно найти, например, только самые новые документы). Кроме этого, можно задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлов) – для этого предназначен параметр Формат файла.
Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса может встречаться только в заголовке страницы или в основной части, в адресе или в любом месте страницы – это можно сделать с помощью параметра Упоминание.
Еще одно удобное решение, доступное среди параметров расширенного поиска, – возможность искать фразу поискового запроса на определенном сайте. Такая возможность доступна для всех на сегодня известных поисковых машин, она позволяет получить список документов с одного сайта, соответствующих запросу.
Сложный поиск в GoogleСложный поиск предусматривает возможность использования особенностей языка поисковых запросов. Он является уникальным по своему синтаксису для каждой поисковой системы, но его возможности схожи.
Вот наиболее популярные задачи, которые можно решить с помощью сложного поиска.
– Если вы хотите, чтобы найденные ссылки содержали точную фразу поискового запроса, то ее следует заключить в кавычки.
– Если в найденных документах должно быть несколько слов из поискового запроса, то необходимо применить логический оператор И (AND). При работе в Google ему соответствует знак +. Таким образом, запись книжный + магазин в строке поиска будет означать поиск таких сайтов, в состав которых вошли оба слова поискового запроса.
– Если в полученных ссылках должно быть хотя бы одно слово поискового запроса, то необходимо использовать оператор ИЛИ (OR). В Google для этого необходимо указать слово or.
– Если вы хотите из результирующего списка ссылок исключить документы с определенными словами, то для этого вам необходимо применить логический оператор НЕ. В Google используют символ – . Оператор НЕ нужно вводить после слова через пробел слитно с необязательным словом. Например, запрос вида карта Парижа – (агентство|тур) позволит найти карту, а не туры по Франции.
С подробностями использования Google можно познакомиться по адресу http://www.google.ru/support/?ctx=web.
Команды особого назначенияДополнительные команды Google позволяют добиться лучших результатов и сузить область поиска. С их помощью вы можете ограничить область поиска, а также указать машине, что не нужно просматривать все страницы. Эти команды позволяют управлять поиском по самой странице, указывая, в какой именно ее части следует искать.
Эти специальные команды записываются перед параметром, а перед некоторыми необходимо указывать символ – . Рассмотрим следующие команды.
– allinlinks: ищет только в названиях ссылок, но не в тексте или названии страницы, например – allinlinks ain.
– allintext: ищет внутри текста на страницах, но не в ссылках или названии страницы, например – allintext:piter.
– allintittle: показывает результаты поиска в заголовке страницы.
– allinurl: показывает страницы, похожие на данный шаблон, например – allinurl:links.php.
– cache: находит копию страницы, проиндексированной в Google, даже если она уже недоступна по адресу в Интернете или изменила свое содержание. Иными словами, эта команда проводит поиск в кэше Google. Она пригодится для просмотра страниц, содержание которых часто меняется. Например, cache: www.news.com.
– cache: url показывает сохраненную версию данной страницы.
– filetype: эта команда позволяет ограничить поиск только файлами с заданным расширением. Однако будьте внимательны, параметры команды Google понимает слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает поиск в файлах наиболее популярных форматов PPT, XLS и DOC.
– info: url эта команда покажет страницу, содержащую ссылки на варианты поиска: поиск по похожим страницам, обратные ссылки и страницы, содержащие такую же ссылку. Результат тот же, что и если вписать в строку поиска адрес веб-страницы.
– intext: в этом случае при поиске не будут учитываться заголовки страниц и ссылки, а будет просматриваться только текст страницы (тега ‹body›). Это бывает полезно, когда вы разыскиваете некий фрагмент текста и вам, по большому счету, безразлично, какой у страницы заголовок и какие ссылки там расположены.
– intitle: данная команда, наоборот, ограничивает поиск только заголовком страницы, то есть содержимым тега ‹title›. Например, такая команда – intitle: первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первые полосы русскоязычных интернет-газет.
– inurl: по этой команде поиск будет проводиться только в адресе страницы. Обычно ее используют вместе с другими командами, когда хотят отыскать страницу поиска. Например, команда – inurl:search выведет список страниц, у которых в адресе встречается слово search. Например, search.aol.com или home.netscape.com/home/internet-search.html.
– link: возвращает список страниц, которые содержат ссылки на заданный сайт. Если ввести, например, – link:ain.com.ua, получите список страниц, ссылающихся на ресурс ain.com.ua. Это просто незаменимый инструмент мониторинга для тех, кто занимается «раскруткой» сайтов.
– related: с помощью этой команды вы сможете получить список страниц, похожих на данную. Например, если вы введете – related: lenta.ru, получите список ссылок на другие онлайновые СМИ. Кроме этого, – related: – удобное средство, если вы хотите узнать, к какой категории Google относит ваш сайт (или наоборот, если хотите найти авторитетные информационные сайты). Именно авторитетные, потому что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, – related: cnn.com, то первые позиции среди результатов будут занимать наиболее весомые издания схожей тематики: The New York Times, WashingtonPost и т. д.
– site: – это, наверное, одна из самых часто используемых команд Google. Она позволяет ограничить поиск данных только указанным сайтом.
Структура адреса страницы Google с результатами поискаИнформация о структуре адреса страницы с результатами поиска позволит вам лучше разобраться в принципах использования поисковых машин.
Вот пример характерного адреса: http://www.google.com/search?num=55&hl=en&q=piter. Он состоит из следующих частей:
– num=55 – количество результатов на одной странице. Это количество может колебаться от 1 до 100. По умолчанию установлено значение 10;
– hl=en – этот параметр задает язык интерфейса Google. В данном случае это английский, но можно изменить на hl=ru (русский);
– q=piter – это сам запрос. К сожалению, ввести русский запрос в адресной строке человек не в состоянии. Вот каким образом выглядит, например, слово кактус: q=%D0%BA%D0%B0%D0%BA%D1%82%D1%83%D1%81.
Кроме того, к URL можно смело добавить еще несколько параметров:
– as_qdr=m1 – указывает максимальный «возраст» найденной информации в месяцах. Значения могут быть от 1 до 12;
– safe=on – включает систему фильтров, которая блокирует по большей части информацию явного порнографического характера.
Поиск Google на вашем сайтеВ следующем листинге приведена форма, которая позволит искать информацию на вашем сайте. Чтобы все заработало, разместите этот HTML-код на своей странице и укажите свой адрес вместо mysite.com. Теперь посетители смогут искать интересующую их информацию на сайте средствами Google.
‹meta http-equiv="content-type" content="text/html; charset=UTF-8"›
‹form method="get" action="http://www.google.com/search"›
‹input type="text" name="q" size=32 maxlength=110 value="›
‹input type="submit" name="sa" value="Google!"›
‹input type="hidden" name="as_sitesearch" value="mysite.com"›
‹input type="hidden" name=hl value="ru"›
‹/form›
Кроме того, вы можете модифицировать форму по своему усмотрению, добавляя новые параметры. Например, следующая строка: ‹input type="hidden" name="as_filetype" value="txt"› заставит Google искать только текстовые документы.
Ограничение по дате искомых результатов можно задать, добавив строку ‹input type="hidden" name="as_qdr" value="m3"› (результаты трехмесячной давности). Если хотите найти данные шестимесячной давности, вместо m3 используйте m6, если ищете информацию за год, то замените m3 на латинское y.
Количество результатов на странице контролирует параметр ‹input type="hidden" name="num" value="50"›.
Поиск в Google по электронному адресуСпециальный инструмент Google под названием Google Alerts (веб-сайт http://www.google.com/alerts) позволяет получать результаты поиска по указанному электронному адресу. Для этого необходимо указать нужный поисковый запрос, задать тип поиска (новости, поиск в Интернете или поиск в Google Groups), а также указать периодичность и электронный адрес. В результате этого Google будет создавать электронные письма с указанием новых сайтов, которые соответствуют поисковому запросу, и присылать их на ваш электронный адрес.
Персональная страница на GoogleПерсональный поиск Google представляет собой весьма удобный инструмент, позволяющий каждому пользователю не только хранить нужные данные на сайте Google, но и создать оптимальный для себя внешний вид главной страницы сайта, превращая его в актуальный информационный ресурс.
Чтобы использовать персонализированный поиск Google, необходимо перейти на страницу http://www.google.com/ig. Для работы с сервисом необходимо зарегистрироваться на Google (это можно сделать здесь же). Однако те, кто уже зарегистрирован в Gmail, Froogle или какой-либо другой службе Google, могут указать здесь свои логин и пароль.
Внешний вид этой страницы можно настроить. Следует также отметить возможность работы с историей поисковых запросов. По умолчанию на главной странице размещено несколько блоков, среди которых – информация о погоде, последние новости, новые видео на сервисе YouTube и т. д. (рис. 4.3).
Рис. 4.3. Персональная страница Google
Каждый из этих разделов можно отредактировать, свернуть или удалить. Для редактирования нужно щелкнуть на кнопке с изображением треугольничка и выбрать в появившемся меню строку Edit settings. Можно добавить и другие информационные блоки для отображения на главной странице персонального поиска. Для этого необходимо щелкнуть на том же треугольничке и выполнить команду You might also like. В результате появится список сервисов Google. Для добавления любого из них нужно щелкнуть в его описании на кнопке Add it now. Сервисы сгруппированы в разделы: News (содержит новостные сервисы), Tools (различные инструменты, например часы, календари, географические карты, словари, записные книжки), Communication (сервисы для общения) и т. д.
После добавления блока с Gmail на странице персонального поиска Google будут отображены заголовки последних сообщений, полученных в почтовый ящик на Gmail, адреса их отправителей и время получения письма.
Кроме того, сервис позволяет самостоятельно создать информационный блок и поместить его на главную страницу персонального поиска. Для этого необходимо задать запрос, в результате Google проведет поиск RSS-лент, соответствующих ему, и предложит поместить блок на страницу Google. Его содержимым будут экспортированные заголовки новостей найденной RSS-ленты.
Воспользовавшись ссылкой Classic Home, можно в любой момент перейти к классическому виду главной страницы Google, на которой не будут отображены все перечисленные информационные блоки.
Однако наиболее интересные возможности касаются поиска при работе с персонализированным сервисом Google. В этом случае на сайте сохраняется вся история предыдущих запросов к системе, она может быть помещена на главную страницу сервиса. Для перехода в полнофункциональный режим использования истории поиска воспользуйтесь ссылкой Web History.
На этой странице отображен список всех предыдущих запросов к системе с указанием дат поиска, то есть страница отображена в виде персонального дневника. В правой части экрана находится календарь поисковой активности – в нем разными цветами выделена интенсивность использования Google (цвета определяются в соответствии с количеством запросов к системе).
По мере наполнения истории поисковых запросов Google начинает группировать результаты поиска по темам.
На странице Web History после формирования запроса можно выбрать вид поиска – искать по личной истории поисковых запросов или в Сети. Получив результат, запрос можно упорядочить по релевантности или по дате поиска.
При поиске в персональной истории результаты сортируются в хронологической последовательности, где самые последние запросы выводятся первыми. Возле каждого результата указан поисковый запрос и перечень посещенных сайтов с указанием количества посещений. Ненужные результаты могут быть легко удалены из истории. Кроме того, предусмотрена возможность временного приостановления автосохранения запросов и найденных в ответ на них ссылок.
Не менее полезна возможность отображения похожих результатов, связанных с определенным термином, названием или объектом. Для этого можно воспользоваться ссылкой Related History. Сервис Web History также автоматически запоминает посещенные страницы и впоследствии выделяет их цветом, что значительно упрощает навигацию и просмотр ссылок полученного списка.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.