Электронная библиотека » Надежда Баловсяк » » онлайн чтение - страница 16


  • Текст добавлен: 7 февраля 2014, 17:50


Автор книги: Надежда Баловсяк


Жанр: Компьютеры: прочее, Компьютеры


сообщить о неприемлемом содержимом

Текущая страница: 16 (всего у книги 36 страниц)

Шрифт:
- 100% +
4.1. Как функционируют поисковые машины и как правильно строить запросы

Современные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете.

Принцип их работы состоит в следующем: время от времени они просматривают веб-страницы и регистрируют появившиеся там изменения. На этой основе создается база данных ссылок на веб-страницы. При ее формировании поисковые машины обращают внимание на некоторые дополнительные элементы, например на то, как часто встречается слово на странице, выделено ли оно, сколько ссылок на данный документ есть на других сайтах и др. Все эти сведения также будут учитываться при поиске.

Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать появившиеся там изменения.

Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся.

Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины – веса слова. Как раз на основе этих данных поисковая машина формирует списки ссылок, упорядоченные по весу слов поискового запроса, а также с учетом его местонахождения (в ссылках, метатегах, заголовке страницы и т. п.). Следует заметить, что у каждого коммерческого поисковика есть своя формула для вычисления веса ключевых слов при индексации. Это одна из причин, почему по одному и тому же запросу поисковики выдают разные результаты.

Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность – это степень соответствия найденной страницы поисковому запросу.

Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете – получить список ссылок, которые соответствуют поисковому запросу.

Однако, несмотря на общие принципы работы и похожий интерфейс, поисковые машины отличаются по ряду параметров. Среди них: релевантность результатов, величина и частота обновления баз данных, скорость выдачи результатов и удобство работы.

Наряду с этим существуют и другие различия: языки запроса, зоны поиска, глубина поиска внутри документов, методы определения приоритетов и др. Это является еще одной причиной того, что применение разных поисковых машин дает различные результаты.

Итак, поисковая машина формирует список документов на основе сформулированного пользователем запроса.

Если запрос не выражает в полной мере суть поиска, его результаты не будут соответствовать тому, что пользователю, собственно, нужно. Поэтому в первую очередь необходимо уметь правильно создавать поисковые запросы. Их составляют так, чтобы область поиска была максимально конкретизирована, а значит, сужена.

ПРИМЕЧАНИЕ

Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже – имена прилагательные, а вот использование глаголов почти бесполезно.

Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку.

У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется.

В настоящее время поиск из документов осуществляется не только по строгому соответствию введенному запросу – все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе (то есть не только в определенном падеже и числе, но и в других).

Согласно общей классификации поиск разделяют на простой, расширенный и сложный. Чаще всего большинство пользователей применяют первый вариант. Принцип его применения состоит в формулировании запроса и получении списка ссылок, соответствующих ему.

Самая важная задача этого этапа заключается в том, чтобы правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов.

При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск – по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса: AND (поиск по всем словам) или OR (по каждому в отдельности).

Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос информационная компетентность поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить иные логические операторы. Их синтаксис обычно уникален в каждой поисковой машине. Рассмотрим их ниже.

4.2. Специальные виды поиска

Если вы хотите найти в Интернете не список сайтов, а нечто более конкретное, например программу или книгу, в этом случае вам лучше воспользоваться специальными поисковыми машинами или же, в крайнем случае, специальными возможностями обычных поисковых машин.

Для поиска файлов можно воспользоваться поисковой машиной FileSearch.ru (http://www.filesearch.ru). FileSearch.ru – это поисковая система, осуществляющая поиск среди миллионов файлов, собранных практически со всех российских FTP-серверов и нескольких тысяч зарубежных серверов. База поиска постоянно обновляется (рис. 4.1).

Если традиционные поисковые машины ищут на WWW-серверах и HTML-страницах файлы и каталоги по их содержимому, то FileSearch.ru ищет на FTP-серверах по именам самих файлов и каталогов. Если вам нужна какая-либо программа, игра и т. п., то на WWW-серверах вы, скорее всего, найдете их описание, а найти и скачать нужный файл можно именно с помощью FileSearch.ru.

Кроме файлов, система умеет производить поиск изображений, а также MP3– или видеофайлов. Принцип ее работы аналогичен поиску с помощью обычных поисковых систем.

Метапоисковая система http://www.metabot.ru умеет искать самые разнообразные файлы (MP3-, видео– и др.). Прежде всего необходимо выбрать нужный вид поиска, установив соответствующий переключатель в нужное положение. Затем следует ввести поисковый запрос. В результате программа предложит список найденных ссылок.

Поиск файлов по FTP-серверам поможет произвести система Rambler-ftp (http://ftpsearch.rambler.ru/db/ftpsearch). С ее помощью также можно искать файлы самых разнообразных форматов. Пользователям системы доступен простой и расширенный поиск. По схожему принципу работает сервис http://ru.findfile.net, который ищет более чем по 1900 FTP-серверам.

Воспользоваться простым инструментом поиска по FTP-серверам можно на сайте http://ftpsearch.orbita.ru. Англоязычные поисковики размещены на сайтах http://www.ftpplanet.com, http://www.shareware.com.

Рис. 4.1. Главная страница поисковика FileSearch.ru

Поисковая система Google позволяет осуществлять множество видов поиска. Доступ к некоторым из них возможен на странице англоязычного Google по адресу http://www.google.com. Например, воспользовавшись разделом Images, можно задать поиск картинок, News – поиск новостей.

Полный список поисковых возможностей Google представлен на странице по адресу http://www.google.com/intl/en/options. Наиболее популярными среди них являются поиск электронных книг (http://books.google.com) и поиск статей (http://scholar.google.com).

4.3. Эффективный поиск в Google

Расширенный поиск (в зарубежных системах – Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. В большинстве поисковых машин эта функция реализована. Для этого предназначена специальная ссылка на главной странице, по которой переходят на страницу расширенного поиска.

В данном режиме с помощью специальных средств можно задать более точные критерии отбора и уточнить область поиска. В этом случае расширенным является только набор критериев, а вот область поиска чаще всего существенно сужается.

Расширенный поиск в Google

Рассмотрим некоторые инструменты расширенного поиска. В поисковой системе Google доступна настройка типа содержания запроса на искомых страницах. При этом возможны следующие варианты:

• со всеми словами – в этом режиме поиска формируется список всех индексированных страниц, содержащих все ключевые слова, в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу;

• с точной фразой – в данном режиме поиска составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки;

• с любым из слов – в результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае число полученных ссылок огромно. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, введите оба названия;

• без слов – если вы хотите исключить некоторые слова из результатов поиска, укажите их в данном поле (рис. 4.2).

Рис. 4.2. Окно расширенного поиска Google

Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки рядом других параметров. Например, вы можете задать поиск страниц только на одном языке (параметр Язык), ограничить сайты определенным диапазоном дат обновления (это удобно, если нужно найти, например, только самые новые документы). Кроме этого, можно задать поиск документов определенного типа (например, только HTML, DOC, RTF, PPT или PDF-файлов) – для этого предназначен параметр Формат файла.

Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Так, с помощью параметра Упоминание вы можете указать, что фраза поискового запроса встречается только в заголовке страницы или в основной части, в адресе или в любом месте страницы.

Еще одно удобное решение, доступное среди параметров расширенного поиска, – возможность искать фразу поискового запроса на определенном сайте. Такая возможность имеется у всех известных сегодня поисковых машин, она позволяет получить список документов с одного сайта, соответствующих его запросу.

Сложный поиск в Google

Сложный поиск предусматривает возможность использования особенностей языка поисковых запросов. Он является уникальным по своему синтаксису для каждой поисковой системы, но его возможности схожи.

Вот наиболее популярные задачи, которые можно решить с помощью сложного поиска.

• Если вы хотите, чтобы найденные ссылки содержали точную фразу поискового запроса, то ее следует заключить в кавычки.

• Если в найденных документах должно быть несколько слов из поискового запроса, то необходимо применить логический оператор И (AND). При работе в Google ему соответствует знак +. Таким образом, запись книжный + магазин в строке поиска будет означать поиск таких сайтов, в состав которых вошли оба слова поискового запроса.

• Если в полученных ссылках должно быть хотя бы одно слово поискового запроса, то необходимо использовать оператор ИЛИ (OR). В Google для этого необходимо указать слово or.

• Если вы хотите из результирующего списка ссылок исключить документы с определенными словами, то для этого вам необходимо применить логический оператор НЕ. В Google используют символ –. Оператор НЕ нужно вводить после слова через пробел слитно с необязательным словом. Например, запрос вида карта Парижа –(агентство|тур) позволит найти карту, а не туры по Франции.

С подробностями использования Google можно познакомиться по адресу http://www.google.com.ua/intl/uk/help/refinesearch.html.

Команды особого назначения

Дополнительные команды Google позволяют добиться лучших результатов и сузить область поиска. С их помощью вы можете ограничить область поиска, а также указать машине, что не нужно просматривать все страницы. Данные команды позволяют управлять поиском по самой странице, указывая, в какой именно ее части следует искать.

Эти специальные команды записываются перед параметром, а перед некоторыми необходимо указывать символ –. Рассмотрим следующие команды.

• – allinlinks: – ищет только в названиях ссылок, но не в тексте или названии страницы, например – allinlinks ain.

• – allintext: – ищет внутри текста на страницах, но не в ссылках или названии страницы, например – allintext:piter.

• – allintittle: – показывает результаты поиска в заголовке страницы.

• – allinurl: – показывает страницы, похожие на данный шаблон, например – allinurl:links.php.

• cache: – находит копию страницы, проиндексированной в Google, даже если она уже недоступна по адресу в Интернете или изменила свое содержание. Иными словами, эта команда проводит поиск в кэше Google. Она пригодится для просмотра страниц, содержание которых часто меняется. Например, cache:www.news.com.

• – cache:url – показывает сохраненную версию данной страницы.

• filetype: – позволяет ограничить поиск только файлами с заданным расширением. Однако будьте внимательны, параметры команды Google понимает слишком буквально, и поэтому если вы сначала наберете filetype:htm, а потом filetype:html, то результаты поиска в обоих случаях будут разными. Google поддерживает поиск в файлах наиболее популярных форматов PPT, XLS и DOC.

• – info:url – покажет страницу, содержащую ссылки на варианты поиска: поиск по похожим страницам, обратные ссылки и страницы, содержащие такую же ссылку. Результат тот же, что и при вписывании в строку поиска адреса веб-страницы.

• – intext: – не учитывает заголовки страниц и ссылки, а просматривает только текст страницы (тега <body>). Это бывает полезно, когда вы разыскиваете некий фрагмент текста, и вам, по большому счету, безразлично, какой у страницы заголовок и какие ссылки там расположены.

• – intitle: – ограничивает поиск только заголовком страницы, то есть содержимым тега <title>. Например, использование команды – intitle:первая полоса (пробелов между командой и параметром быть не должно) приведет к тому, что Google выдаст ссылки на первые полосы русскоязычных интернет-газет.

• – inurl: – проводит поиск только в адресе страницы. Обычно ее используют вместе с другими командами, когда хотят отыскать страницу поиска. Например, команда – inurl:search выведет список страниц, у которых в адресе встречается слово search. Например, search.aol.com или home.netscape.com/home/internet-search.html.

• – link: – возвращает список страниц, которые содержат ссылки на заданный сайт. Если ввести, например, – link:ain.com.ua, получите список страниц, ссылающихся на ресурс ain.com.ua. Это просто незаменимый инструмент мониторинга для тех, кто занимается «раскруткой» сайтов.

• – related: – выдает список страниц, похожих на данную. Например, если вы введете – related:lenta.ru, получите список ссылок на другие онлайновые СМИ. Кроме этого, – related: – удобное средство, если вы хотите узнать, к какой категории Google относит ваш сайт (или, наоборот, если хотите найти авторитетные информационные сайты). Именно авторитетные, потому что Google при выводе результатов сортирует их в порядке значимости, и если вы введете, например, – related:cnn.com, то первые позиции среди результатов будут занимать наиболее весомые издания схожей тематики: The New York Times, Washingtonpost и т. д.

• – site: – это, наверное, одна из самых часто используемых команд Google. Она позволяет ограничить поиск данных только указанным сайтом.

Структура адреса страницы Google с результатами поиска

Информация о структуре адреса страницы с результатами поиска позволит вам лучше разобраться в принципах использования поисковых машин.

Вот пример характерного адреса: http://www.google.com/search?num=55&hl=en&q=piter. Он состоит из следующих частей:

• num=55 – количество результатов на одной странице. Оно может колебаться от 1 до 100. По умолчанию установлено значение 10;

• hl=en – этот параметр задает язык интерфейса Google. В данном случае это английский, но можно изменить на hl=ru (русский);

• q=piter – это сам запрос. К сожалению, ввести русский запрос в адресной строке человек не в состоянии. Вот как выглядит слово кактус: q=%D0%BA%D0%B0% D0%BA%D1%82%D1%83%D1%81.

Кроме того, к URL можно смело добавить еще несколько параметров:

• as_qdr=m1 – указывает максимальный «возраст» найденной информации в месяцах. Значения могут быть от 1 до 12;

• safe=on – включает систему фильтров, которая блокирует по большей части информацию явного порнографического характера.

Поиск Google на вашем сайте

В следующем листинге приведена форма, которая позволит искать информацию на вашем сайте. Чтобы все заработало, разместите этот HTML-код на своей странице и укажите свой адрес вместо mysite.com. Теперь посетители смогут искать интересующую их информацию на сайте средствами Google.


<meta http-equiv="content-type" content="text/html; charset=UTF-8">

<form method="get" action="http://www.google.com/search">

<input type="text" name="q" size=32 maxlength=110 value="">

<input type="submit" name="sa" value="Google!">

<input type="hidden" name="as_sitesearch" value="mysite.com">

<input type="hidden" name=hl value="ru">

</form>


Кроме того, вы можете модифицировать форму по своему усмотрению, добавляя новые параметры. Например, следующая строка: <input type="hidden" name="as_filetype" value="txt"> заставит Google искать только текстовые документы.

Ограничение по дате искомых результатов можно задать, добавив строку <input type="hidden" name="as_qdr" value="m3"> (результаты трехмесячной давности). Если хотите найти данные шестимесячной давности, вместо m3 используйте m6, если ищете информацию за год, то замените m3 на латинское y.

Количество результатов на странице контролирует следующий параметр: <input type="hidden" name="num" value="50">.

Поиск в Google по электронному адресу

Специальный инструмент Google под названием Google Alerts (веб-сайт http://www.google.com/alerts) позволяет получать результаты поиска по указанному электронному адресу. Для этого необходимо указать нужный поисковый запрос, задать тип поиска (новости, поиск в Интернете или поиск в Google Groups), а также указать периодичность и электронный адрес. В результате этого Google будет создавать электронные письма с указанием новых сайтов, которые соответствуют поисковому запросу, и присылать их на ваш электронный адрес.

Персональная страница на Google

Персональный поиск Google представляет собой весьма удобный инструмент, позволяющий каждому пользователю не только хранить нужные данные на сайте Google, но и создать оптимальный для себя внешний вид главной страницы сайта, превращая его в актуальный информационный ресурс.

Чтобы использовать персонализированный поиск Google, необходимо перейти на страницу http://www.google.com/ig. Для работы с сервисом следует зарегистрироваться на Google (это можно сделать здесь же). Однако те, кто уже зарегистрирован в Gmail, Froogle или какой-либо другой службе Google, могут указать здесь свои логин и пароль.

Внешний вид этой страницы можно настроить. Следует также отметить возможность работы с историей поисковых запросов. По умолчанию на главной странице размещено несколько блоков, среди которых – информация о погоде, последние новости, сервисы «слово дня» и «ссылка дня» (рис. 4.3).

Рис. 4.3. Персональная страница Google

Каждый из этих разделов можно отредактировать или удалить. Для этого предназначена кнопка Edit или кнопка с изображением крестика. Кроме этого, можно добавить и другие информационные блоки для отображения на главной странице персонального поиска с помощью ссылки Add Content, которая размещена в левой части окна браузера. В результате выбора ссылки в окне браузера отобразится панель с кнопками, соответствующими разным сервисам Google. Эти кнопки сгруппированы в разделы. Среди них раздел My Stuff, в котором собраны ссылки на персональные сервисы Google: почту Gmail, сервис закладок, историю поисковых запросов, онлайн-магазины и т. п. Кроме этого, другие группы сервисов предлагают добавить на главную страницу блоки новостей (раздел News), бизнес-новости (Business), новости технологий, спорта, раздел LifeStyle и др.

После добавления блока с Gmail на странице персонального поиска Google будут отображены заголовки последних сообщений, полученных в почтовый ящик на Gmail, адреса их отправителей и время получения письма.

Кроме этого, сервис позволяет пользователю создать самому информационный блок и поместить его на главную страницу персонального поиска. Для этого необходимо задать запрос, в результате Google проведет поиск RSS-лент, соответствующих ему, и предложит поместить блок на страницу Google. Его содержимым будут экспортированные заголовки новостей найденной RSS-ленты.

Воспользовавшись ссылкой Classic Home, можно в любой момент перейти к классическому виду главной страницы Google, на которой не будут отображены все перечисленные информационные блоки.

Однако наиболее интересные возможности касаются поиска при работе с персонализированным сервисом Google. В этом случае на сайте сохраняется вся история предыдущих запросов к системе, она может быть помещена на главную страницу сервиса. Для перехода в полнофункциональный режим использования истории поиска воспользуйтесь ссылкой Search History (или перейдите по ссылке http://www.google.com/searchhistory/?hl=en).

На этой странице отображен список всех предыдущих запросов к системе с указанием дат поиска, то есть страница отображена в виде персонального дневника. В правой части экрана находится календарь поисковой активности – в нем разными цветами выделена интенсивность использования Google (цвета определяются в соответствии с количеством запросов к системе).

По мере наполнения истории поисковых запросов Google начинает группировать результаты поиска по темам.

На странице Search History после формирования запроса можно выбрать вид поиска – искать по личной истории поисковых запросов или в Сети. Получив результат, запрос можно упорядочить по релевантности или дате поиска.

При поиске в персональной истории результаты сортируются в хронологической последовательности (самые последние запросы выводятся первыми). Возле каждого результата указан поисковый запрос, перечень посещенных сайтов с количеством посещений. Ненужные результаты могут быть легко удалены из истории. Кроме того, предусмотрена возможность временной приостановки автосохранения запросов и найденных в ответ на них ссылок.

Не менее полезна возможность отображения похожих результатов, связанных с определенным термином, названием или объектом. Для этого можно воспользоваться ссылкой Related History. Также Search History автоматически запоминает посещенные страницы и впоследствии выделяет их цветом, что значительно упрощает навигацию и просмотр ссылок полученного списка.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | Следующая
  • 4.2 Оценок: 5

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.


Популярные книги за неделю


Рекомендации