Netscape Open Directory Project / Google
(
http://directory.google.com
http://dmoz.org) –
2.200.000 сайтов
Yahoo (www.yahoo.com)- ок. 1.900.000
сайтов
LookSmart(
www.altavista.com
www.looksmart.com
) - ок. 2.000.000 сайтов [52]
Русскоязычные каталоги
@rus
www.atrus.ru
List.ru
www.
list.ru
Yandex
www.yandex.ru
Russia Online
www.online.ru/rmain
Russia on the Net
www.ru
InfoArt Stars
www.stars.ru
4. Корпусная лингвистика
Следующим шагом в освоении ресурсов
Интернета может стать целенаправленное
формирование специализированных корпусов
текстов на жестком диске вашего компьютера.
Современные средства позволяют быстро
сформировать весьма обширный (несколько
десятков миллионов слов) корпус текстов
практически по любой тематике, и сделать это
может каждый, кто владеет основными
навыками работы с ПК и с Интернетом. Для
создания корпусов, помимо обычных браузеров,
используются т.н. оффлайновые браузеры и
программы до-качки. Полнотекстовый поиск по
накопленным материалам осуществляется с
помощью специализированных программ ин-
деексации и поиска.
Преимущества
специализированных
корпусов
1) Вы сами - а не поисковая система – опре-
деляете, что именно вы хотите проиндек-
сировать. Здесь следует иметь в виду несколько
моментов:
a) Индексы поисковых систем очень
обширны, вас же может интересовать употреб-
ление того или иного слова в текстах строго
определенного типа (американские юриди-
ческие документы или английские памфлеты
XVII в.)
b) Не все сайты индексируются на 100%:
ограничения на глубину индексирования на-
кладываются по разным причинам как
владельцами поисковых систем, так и вла-
дельцами сайтов. Такие сайты, тем не менее,
поддаются
скачиванию
оффлайновы-ми
браузерами.
c) Существует феномен т.н. "невидимой
Сети" (invisible Web): все большее число сайтов
переходит от статического формирования вэб-
страниц к динамическому и размещает всю
основную информацию в базах данных.
Страницы в этом случае формируются "на лету"
в зависимости от запросов или "профилей"
пользователей; этот метод также очень удобен
для сайтов с постоянно обновляемой инфор-
мацией (новости, развлечения и т.д), однако
большая часть материалов при этом становится
недоступной для поисковых машин, которые в
результате как бы скользят по поверхности.
Такие сайты могут содержать уникальную
информацию, которую вполне можно сохранить
|