Microsoft Word Хабаршы№2 2011(2)


Netscape Open Directory Project / Google



Pdf көрінісі
бет121/133
Дата18.10.2023
өлшемі4.03 Mb.
#480964
1   ...   117   118   119   120   121   122   123   124   ...   133
Abai habarshysy 2(8) 2011(2)

Netscape Open Directory Project / Google 
(
http://directory.google.com
http://dmoz.org) – 
2.200.000 сайтов
Yahoo (www.yahoo.com)- ок. 1.900.000 
сайтов
LookSmart(
www.altavista.com
www.looksmart.com
- ок. 2.000.000 сайтов [52] 
Русскоязычные каталоги 
@rus 
www.atrus.ru
List.ru 
www.
list.ru
Yandex 
www.yandex.ru
 
Russia Online 
www.online.ru/rmain
Russia on the Net 
www.ru
InfoArt Stars 
www.stars.ru
4. Корпусная лингвистика 
Следующим шагом в освоении ресурсов 
Интернета может стать целенаправленное 
формирование специализированных корпусов 
текстов на жестком диске вашего компьютера. 
Современные средства позволяют быстро 
сформировать весьма обширный (несколько 
десятков миллионов слов) корпус текстов 
практически по любой тематике, и сделать это 
может каждый, кто владеет основными 
навыками работы с ПК и с Интернетом. Для 
создания корпусов, помимо обычных браузеров, 
используются т.н. оффлайновые браузеры и 
программы до-качки. Полнотекстовый поиск по 
накопленным материалам осуществляется с 
помощью специализированных программ ин-
деексации и поиска. 
Преимущества 
специализированных 
корпусов 
1) Вы сами - а не поисковая система – опре-
деляете, что именно вы хотите проиндек-
сировать. Здесь следует иметь в виду несколько 
моментов: 
a) Индексы поисковых систем очень 
обширны, вас же может интересовать употреб-
ление того или иного слова в текстах строго 
определенного типа (американские юриди-
ческие документы или английские памфлеты 
XVII в.) 
b) Не все сайты индексируются на 100%: 
ограничения на глубину индексирования на-
кладываются по разным причинам как 
владельцами поисковых систем, так и вла-
дельцами сайтов. Такие сайты, тем не менее, 
поддаются 
скачиванию 
оффлайновы-ми 
браузерами. 
c) Существует феномен т.н. "невидимой 
Сети" (invisible Web): все большее число сайтов 
переходит от статического формирования вэб-
страниц к динамическому и размещает всю 
основную информацию в базах данных. 
Страницы в этом случае формируются "на лету" 
в зависимости от запросов или "профилей" 
пользователей; этот метод также очень удобен 
для сайтов с постоянно обновляемой инфор-
мацией (новости, развлечения и т.д), однако 
большая часть материалов при этом становится 
недоступной для поисковых машин, которые в 
результате как бы скользят по поверхности. 
Такие сайты могут содержать уникальную 
информацию, которую вполне можно сохранить 




Достарыңызбен бөлісу:
1   ...   117   118   119   120   121   122   123   124   ...   133




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет