Электронная библиотека » Александр Загуменов » » онлайн чтение - страница 5


  • Текст добавлен: 9 ноября 2013, 23:44


Автор книги: Александр Загуменов


Жанр: Интернет, Компьютеры


сообщить о неприемлемом содержимом

Текущая страница: 5 (всего у книги 25 страниц) [доступный отрывок для чтения: 8 страниц]

Шрифт:
- 100% +
Индекс поисковой системы

Простейший способ организации индекса для поисковой системы таков: по определенным правилам (используя пробелы, знаки препинания) выделяется и хранится некоторая последовательность из букв и цифр. При этом в качестве адресной информации можно применять путь и имя файла, адрес Web-страницы. По такой схеме действуют разработчики многих поисковых систем, например, одной из самых известных в Интернет – AltaVista компании Dec.

Недостатки указанного способа очевидны при использовании любых языков, в которых слова имеют словоформы, то есть изменяются по числам, родам, падежам, временам и др. Пользователь, начиная поиск, вынужден либо вспоминать, как точно выглядела искомая лексическая единица, либо добросовестно склонять и спрягать слова, чтобы получить полную парадигму.

Частичное решение проблемы – применение шаблонов, например, символа * (астериск) в конце слова. Такой шаблон неплохо подходит для английского языка, где большинство словоформ образуется за счет добавления окончаний – s, – ed и – ing; впрочем, но эта уловка полностью не спасает от «мусора» в результате поиска. С русским языком все обстоит гораздо сложнее. Найти с помощью шаблона многие слова невозможно в принципе, а именно:

• слова, у которых в разных формах меняется основа: идти – шел, плохо – хуже, он – его, человек – люди, ребенок – дети;

• слова с большим количеством словоформ. Привести список всех словоформ русского глагола (с причастиями и деепричастиями – до 250 различных форм) человеку, у которого нет лингвистического образования, очень трудно. Понять, все ли словоформы из этого списка охватываются шаблоном * – еще труднее;

• слова с беглыми гласными и чередованиями (искать – ищу, окно – окон, расти – рос);

• короткие слова (из трех-четырех букв): дом, хор и т. п. Во всех языках, в том числе и в русском, существует общая закономерность: чем короче слово, тем чаще оно используется. Применение шаблона * для поиска такой лексики приводит к большому количеству ненужных ссылок в списке найденных документов.

Существует два противоположных подхода к реализации поиска. Первый – «демократический», при котором поиск должен быть настолько прост, чтобы любой неподготовленный человек мог, не испытывая затруднений, сформулировать вопрос и вскоре получить на него приемлемый ответ. Второй – «элитарный», при котором поиск является тонким инструментом, требующим квалифицированного обращения. Оба подхода справедливы, чем и обусловлено наличие у всех крупных поисковых машин в Internet двух поисковых страниц – для обычного и расширенного поиска.

Полнотекстовый поиск

Когда говорят о полнотекстовом поиске, имеют в виду поиск по всем текстовым полям документа. Под текстом подразумевается набор слов (выделенная по некоторым правилам последовательность букв), чисел и меток (комбинации букв и цифр или букв разных алфавитов). Текстовый документ, как правило, имеет внутреннюю структуру – деление на параграфы, отступ для заголовка, подписи, таблицы. Текстовые редакторы позволяют делать эту структуру достаточно сложной: разбивать текст на колонки, выравнивать его, создавать списки и т. д.

Часто структуру документа при отсутствии жесткой регламентации определяет внутренняя логика. Так, вверху делового письма обычно стоят реквизиты адресата, внизу – подпись и число. Несколько иначе дело обстоит с бланками – в них поля заданы строго. Язык HTML, принятый в Internet как стандарт, помимо разметки информации, предусматривает разметку внутренней структуры: заголовка, тела документа, ключевых слов.

В задачу полнотекстового поиска наряду с дешифровкой разных форматов (это могут быть текстовые поля баз данных, файлы стандартных форматов – TXT, DOC, HTML, RTF, XLS) входит понимание внутренней структуры текста. В идеальном случае поисковая система должна подчиняться настройке на определенные текстовые структуры. Эта настройка может производиться как формальным описанием данных, так и самообучением системы с обратной связью.

Учет морфологии

Системы, разработанные с учетом морфологии языка, способны дифференцировать слова по формам и выполнять анализ с использованием всего спектра словоизменений.

По способу образования словоформ русский язык – флективный, то есть в нем существуют флексии (от лат. flexio – сгибание), или окончания, выражающие грамматическое значение при словоизменении (склонении, спряжении). Русский язык относится также к классу синтетических языков: в слове объединено и лексическое, и грамматическое значение.

Слово во всей совокупности его лексических значений называется лексемой (от греч. lexis – слово, выражение). Лексема – это единица лексического уровня языка; система словоформ, относящихся к одной лексеме, называется ее парадигмой. Другими словами, парадигма слова – это образец типа склонения или спряжения, совокупность всех словоформ, полученных при изменении слова по числам, падежам, родам и временам. Наиболее сложную парадигму в русском языке имеют глаголы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая лексема представлена одной из словоформ, которая называется словарной или исходной. В русском языке словарными формами являются следующие:

• для существительных – именительный падеж единственного числа;

• для прилагательных – именительный падеж единственного числа мужского рода;

• для глаголов, причастий и деепричастий – глагол в инфинитиве.

Все современные поисковые системы, работающие с учетом морфологии русского языка, базируются на «Грамматическом словаре русского языка», составленном А. А. Зализняком. Основное назначение этого словаря – отразить русское словоизменение, то есть для каждого входящего в словарь слова дать сведения о том, изменяемо ли оно, а если да, то как именно это слово склоняется или спрягается. В ранней редакции этот словарь был назван «Обратный словарь русского языка», так как в нем принят не обычный алфавитный порядок расположения слов, а инверсионный (от конца слова к началу). Это обусловлено тем, что одинаковый или похожий тип словоизменения в русском языке имеют слова со сходным концом, а не со сходным началом. Таким образом, при инверсионном алфавитном расположении слова с одинаковым или сходным типом словоизменения обычно оказываются рядом и образуют большие массивы.

Работы по формальному описанию естественного языка тесно связаны с идеями автоматического перевода, появление которых относится к 30-м годам XX века. Первые эксперименты в этой области начались в 1954 году в Джорджтаунском университете (США). До сих пор все существующие автоматические переводчики, как отечественные, так и зарубежные, хотя и умеют делать более-менее грубый подстрочник, даже близко не подошли к уровню профессионального художественного перевода.

Важная часть морфологической обработки – выделение основы слова. Основой называется часть, которая остается после отсечения окончания слова и с которой связано его лексическое значение.

Одна из сложностей формального анализа русского языка – наличие в нем омонимов. Омонимы (от греч. homуs – одинаковый и уnyma – имя) – разные по значению, но одинаково звучащие и пишущиеся слова, например: «рысь» – способ бега и «рысь» – животное. С точки зрения автоматического разбора особенно сложны не полные омонимы (поскольку они имеют одинаковую словоизменительную схему), а омоформы. Это разные слова, часто являющиеся и разными частями речи, но совпадающие по звучанию в отдельных формах, например: существительное «печь» (печи, печью) и глагол «печь» (пеку, печешь); существительное «раздел» (раздел книги) и глагол «раздел» (раздел донага). Очевидно, что определение семантики в таких случаях можно произвести только по контексту.

Упомянутый выше словарь А. А. Зализняка включает 90 000 слов. Однако в русском языке их больше, кроме того, постоянно появляются новые. Некоторые системы, работающие с учетом морфологии русского языка (например, Яndex), умеют обрабатывать эти слова, используя описанные в словаре Зализняка словообразовательные типы. Результат обработки будет тем лучше, чем больше новое слово похоже на обычные слова языка.

Релевантность

Релевантность – это мера соответствия получаемого результата желаемому, или, в терминах поисковых систем, соответствие ответа запросу.

Релевантность можно представить как способ сортировки найденных по запросу документов. Каждая поисковая машина имеет свой алгоритм сортировки результатов поиска. Чем больше документ соответствует запросу, тем выше он должен находиться в списке отклика. Для достижения хорошего результата обычно учитывают следующие параметры: количество найденных слов, «контрастность» слова (относительную частоту его использования в данном документе), расстояние между словами, положение слова в документе и в его зонах.

Насколько ответ поисковой системы удовлетворяет интересы пользователя, зависит не только от ее свойств, но и от того, насколько удачно сформулирован запрос. Практика показывает, что люди не любят читать справочную информацию и пользоваться операторами языка запросов. Для большинства пользователей Internet более естественно задавать вопрос прямо, как при обычном общении. Поэтому в современных поисковых машинах реализуется естественно-языковый запрос, при котором читатель определяет примерную область своих интересов. Кроме того, применяются функции «Искать в найденном» и «Найти похожие документы», назначение которых понятно из их названий.

Методы регистрации

Регистрация узла в поисковых системах Internet – процедура, трудоемкость которой зависит от поставленной задачи и используемых инструментов. Неплохо с самого начала разработки Web-сайта определиться с двумя его важными компонентами: доменным именем и структурой.

Смысловая нагрузка на доменное имя сервера, будь то название компании, продукта или профиля деятельности, весьма велика, а его изменение бывает равносильно смерти узла. Использование одного-двух ключевых терминов, фигурирующих в доменном имени, для многих становится самым быстрым способом локализовать искомый ресурс. Этому способствует и то, что все больше поисковых систем поддерживают поиск по URL-адресу сайта.

Как известно, наиболее значительная функция поисковых систем – продвижение крупных информационных сайтов с десятками и сотнями документов. При создании узла такого типа следует заранее убедиться в том, что в дальнейшем не придется менять его структуру. Изменение системы навигации на узле, имен файлов и каталогов, их перемещение нередко перечеркивает все предыдущие усилия по регистрации ресурсов. Если становление узла или его реконструкция еще не завершены, стоит не только подождать с его «пропиской» в поисковых сервисах, но и предотвратить преждевременную регистрацию, которая может быть выполнена программой-роботом автоматически.

После того как принято решение о начале регистрации, необходимо определиться с планом ее проведения. Выбор здесь оказывается достаточно широким. Прежде всего, сами поисковые службы могут различаться по типу функционирования, организации и профилю, иметь разный уровень доступности для ваших потенциальных клиентов и читателей.

Желание зарегистрировать сайт везде, где можно, пропадает по мере осознания трудоемкости и низкой эффективности такого подхода. Впрочем, нельзя отрицать, что он дает свои результаты, особенно если параллельно идет «раскрутка» узла альтернативными средствами – баннерной рекламой, рассылкой, публикациями в прессе и др. Максимально широкий охват поисковых систем обычно целесообразен при первоначальной, а также разовой, не предполагающей дальнейшего сопровождения регистрации.

Если владельца сайта интересует не столько высокое положение в рейтингах поисковых систем, сколько посещаемость, целесообразно создавать побольше так называемых входных страниц, направляющих посетителей на нужный сайт, и регистрировать именно их.

За вопросом «где регистрировать ресурс?» кроется проблема выбора между поисковыми машинами, то есть автоматическими индексами, и каталогами, русскими сервисами и зарубежными, службами общего назначения и специализированными системами. Наконец, важно определиться: если регистрировать ресурс не везде, то где именно.

Решающим фактором, конечно, является то, в какой степени интересующая вас аудитория готова к использованию поисковых служб, выбранных вами, – как в профессиональном, так и в географическом отношении.

Роботы поисковых машин сканируют Web-страницы, фиксируя гипертекстовые связи, ведущие за пределы стартового документа. Ресурсы, на которые указывают гиперссылки, включаются в план ближайшего ознакомления и служат источником пополнения индекса. Таким образом, наличия хотя бы одной ссылки на страницу вашего сайта достаточно для начала его сканирования роботом даже без вашего желания. При этом сроки появления ресурсов узла в индексных базах данных растянуты и неопределенны. Если вы сами оставляете заявку на индексирование, что аналогично регистрации в каталогах – и даже проще, – то сроки в большей степени фиксированы и существенно сокращаются. После регистрации Web-узла его страницы начинают появляться в списке отклика поисковой машины на запрос из ключевых слов, введенных пользователем. Если ваш сайт не попадает в первые 10–50 пунктов списка, вероятность того, что до странички доберутся посетители, невелика. Стремление занять высокое положение в рейтингах поисковых систем и становится причиной конкурентной борьбы Web-сайтов и сопровождающего ее ажиотажа.

Допустим, мы ввели в шаблон одной из поисковых машин запрос, состоящий из двух терминов. Алгоритм поисковой программы присвоит более высокий ранг тому документу, в котором эти термины используются следующим образом:

• включены в заголовок Web-страницы;

• содержатся в заголовках различного уровня в документе;

• расположены близко к началу документа;

• часто употребляются;

• расположены в тексте поблизости друг от друга.

Таковы критерии ранжирования. Какой документ окажется в списке отклика выше: тот, что содержит ключевое слово в заголовке, или тот, в котором оно встречается сто раз, но в поле обычного текста? От ответа на этот вопрос может напрямую зависеть число обращений на ваш узел через поисковую систему. Если добавить к этому, что правила игры, по которым работают поисковые машины, меняются постоянно и без широкого уведомления пользователей, то появление в Internet нового круга специалистов и направлений бизнеса – Search Engine Promotion (Продвижение в поисковых системах) и Search Engine Optimization, SEO (Оптимизация для поисковых систем) – кажется в порядке вещей.

Речь идет о поиске, при котором используются специальные методы и средства воздействия на работу автоматического индекса с целью получения высокого места в списке отклика по ключевым словам, наиболее ярко отражающим профиль узла. Успех применения таких методов базируется на знании принципов регистрации и использовании специального программного обеспечения. Постоянный мониторинг реальных запросов к поисковым системам позволяет отбирать именно те слова и словосочетания, которые привлекут внимание необходимого количества пользователей.

Подготовка к регистрации

Информация, которую запрашивают каталоги и поисковые системы при регистрации ресурса, практически одинакова. При этом поисковые машины обычно (хотя и не всегда) учитывают совсем немногое. Посмотрите на регистрационные формы, предлагаемые для заполнения, например, поисковыми системами Яndex и Апорт. Форма для регистрации поисковой системы Яndex, показанная на рис. 1.2, требует заполнения лишь одного поля: адреса ресурса.

Рис. 1.2. Форма для регистрации сайта в поисковой системе Яndex


Регистрация в поисковой машине Апорт намного сложнее и выполняется поэтапно. Если заявка, заполняемая на первом этапе, весьма проста (она представлена на рис. 1.3), то в дальнейшем предлагается заполнить довольно объемную форму (рис. 1.4), указать рубрику (рис. 1.5) и т. д.

Рис. 1.3. Форма первого этапа регистрации сайта в поисковой системе Апорт


Рис. 1.4. Форма второго этапа регистрации сайта в поисковой системе Апорт


Рис. 1.5. Форма третьего этапа регистрации сайта в поисковой системе Апорт


Вводить каждый раз при регистрации ресурса всю информацию – занятие достаточно долгое и утомительное. Ускорить процесс можно, если заранее составить краткий паспорт сайта, который может включать следующие сведения:

• название сайта;

• URL-адрес;

• описание сайта;

• ключевые слова;

• контактное лицо;

• электронный адрес регистратора.

Если имеются версии сайта на других языках, необходимо составить подобный паспорт для каждой из них.

Благодаря приведенной схеме можно заполнять поля в формах, используя обычные операции копирования и вставки, что значительно ускоряет работу.

Итак, остается лишь взять список поисковых систем и приступить к регистрации.

После выбора конкретной поисковой системы найдите в ней ссылку типа Добавить сайт, или Предложить ресурс, или Add URL. Отметим, что подчас приходится проявить недюжинную смекалку, чтобы отыскать такую надпись в некоторых каталогах и поисковых системах. Ну, а далее все просто – следуйте появляющимся на экране инструкциям, которые в разных системах немного отличаются друг от друга.

Адреса регистрационных форм

Яndex http://www.yandex.ru/addurl.html

Апорт http://www.aport.ru/addurl.php

Rambler http://www.rambler.ru/doc/add_site.shtml

Поиск@Mail.ru http://poisk.mail.ru/cgi-bin/add_url.cgi

UAport http://uaport.net/cgi-bin/add_new

Sesna http://uazone.net/go/addurl.cgi

META http://meta-ukraine.com/pages/addurl.asp

Uniarts http://www.armenian.com/links.html

www.KYRGYZSTAN.kg http://search.kyrgyzstan.kg/cgi-bin/search/add.cgi

DELFI (Латвия) http://rus.delfi.lv/directory/index.php?add=1

DELFI (Эстония) http://rus.delfi.ee/directory/index.php?add=1

AltaVista http://www.altavista.com/addurl/default

Excite https://secure.ah-ha.com/guaranteed_inclusion/teaser.aspx

HotBot http://insite.lycos.com/

Lycos http://insite.lycos.com/

Google http://www.google.com/addurl.html

Если после регистрации вы не увидели свой сайт в поисковой системе, не удивляйтесь. Из-за большой перегруженности робота поисковой машины ваш сайт может стоять в очереди от одного дня до двух недель.

В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные документы. И чем чаще будет меняться страница, тем чаще робот будет на нее заходить.

Особенности регистрации в поисковой системе Яndex

В поисковой машине Яndex допускается регистрация только русскоязычных сайтов.

Для добавления ресурса введите адрес его главной страницы в форму Яndex: Добавить сайт (http://www.yandex.ru/addurl.html) – остальные страницы Яndex найдет самостоятельно по ссылкам.

Робот работает со стандартными ссылками языка HTML (HREF, LINK и FRAME), то есть так, как работал бы пользователь с отключенной в браузере поддержкой Java и JavaScript. Если ссылки на страницы вашего сайта сделаны с помощью скриптов, надо добавить адреса этих страниц через форму Яndex: Добавить сайт.

Запрещения на индексацию отслеживаются системой Яndex обычным образом – через файл robots.txt, находящийся в корневом каталоге сервера.

Яndex контролирует намеренное злоупотребление ключевыми словами в заголовках, комментариях и тексте самого документа и при обнаружении подобных фактов снижает место документа на странице результатов. В случаях злостного использования таких приемов администрация Яndex может исключить документы и сайты из базы. Страницы со временем перенаправления на другие страницы, равным нулю, не подлежат индексированию.

Индексация одних и тех же документов, выдаваемых Web-серверами в разных кодировках, лишена особого смысла. При этом русские поисковые системы держат в базах документы только в одной из кодировок, другие рекомендуется исключать из индексирования. Если кодировки распределяются по портам сервером, на разных портах (серверах) следует выдавать разный robots.txt. Это значит, что во всех портах/серверах, кроме основного, должно быть написано:

disallow: /

Если кодировки выдаются, например, по директориям, необходимо сделать один файл robots.txt следующего содержания:

disallow: /alt

disallow: /mac

disallow: /koi

В уникальные заголовки документов, вкратце описывающие сайт и текущий документ, не следует включать более 20–25 слов. Слова в заголовках имеют больший вес, чем остальные.

Система учитывает описания и ключевые выражения, указанные в соответствующих метатэгах, а также подписи к картинкам в тэге ALT. Яndex работает только с текстами и не умеет распознавать графические изображения. Поэтому, если название выполнено средствами графики, стоит продублировать его в текстовом виде.

Чем длиннее документ, тем менее заметны в нем слова, заданные в запросе, и, следовательно, тем ниже будет находиться ваша страница в результатах поиска при прочих равных условиях. Поэтому старайтесь разбивать длинные документы на более короткие – это правило важно для любых поисковых систем.

При оформлении документов надо придерживаться следующих требований:

• не следует набирать слова в р а з р я д к у – система не воспримет их;

• без особой необходимости не стоит набирать слова ПРОПИСНЫМИ буквами, если только это не аббревиатура;

• точки и запятые не отделяются от слова пробелом, иначе Яndex определит их как отдельные слова. После них пробел ставится.

Проверять, проиндексирован ли ресурс, нужно не сразу, а через несколько дней после его добавления в базу Яndex. Обычно страницы появляются в поисковой базе в течение недели после их создания или изменения. Новые страницы, внесенные в базу самостоятельно с помощью механизма добавления ресурса, появятся быстрее.

Если Вы не находите свою страницу, проверьте с помощью формы Яndex: Добавить сайт, включена ли она в базу Яndex; другими словами, попробуйте добавить ее еще раз.

Если вы получите сообщение «Ваш URL … был только что внесен в нашу базу данных», это значит, что адрес вашего ресурса системе ранее не был известен. Теперь он добавлен и в ближайшее время будет проиндексирован.

Если поступило сообщение «Ваш URL … уже известен роботу Яndex. Данный ресурс будет проиндексирован в ближайшее время», подождите еще пару дней.

Сообщение «Ваш URL … уже проиндексирован. Вы можете посмотреть, какие страницы Вашего сайта проиндексированы в Яndex.Ru к настоящему времени» означает, что по имеющейся здесь же ссылке вы можете перейти ко всему списку документов вашего ресурса, проиндексированных в поисковой машине Яndex.

В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные документы. Причем частота обхода конкретного сервера зависит от зафиксированной роботом частоты изменения его страниц.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 | Следующая
  • 4.4 Оценок: 5

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации