На головну

Пошукові системи і алгоритми пошуку інформації в мережі Інтернет

  1. B. МІЖНАРОДНА КОНСУЛЬТАТИВНА ГРУПА З ПИТАНЬ ПОШУКУ І ПОРЯТУНКУ (ІНСАРАГ)
  2. C-білки системи комплементу
  3. I. Збір вихідної інформації
  4. II. Паризька мирна конференція 1919 р р Створення Версальської системи міжнародних відносин в Європі.
  5. II.1. Асиметричність інформації та обсяг взаємодій в умовах двосторонньої монополії
  6. III. Еволюція Британської системи маяків
  7. Internet banking (Інтернет-банкінг)

Мета роботи: Виконати аналіз якості пошукових систем і освоїти основні прийоми пошуку інформації в мережі Інтернет.

2.1. теоретичні відомості

Пошукові системи зазвичай складаються з трьох компонентів:

- Програма-агент, яка переміщається по Мережі і збирає інформацію;

- База даних, яка містить всю інформацію, яка збирається програмами-агентами;

- Пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку та структурування, іноді звані пошуковими механізмами, використовуються для того, щоб допомогти людям знайти інформацію, якої вони потребують. Це спеціальні програми, які займаються пошуком сторінок в Мережі, витягають гіпертекстові посилання на цих сторінках і автоматично індексують інформацію[3], Яку вони знаходять, для побудови бази даних. Кожен пошуковий механізм має власний набір правил, що визначають як збирати документи. Деякі йдуть за кожним посиланням на кожного знайденого сторінці і потім, в свою чергу, досліджують кожну посилання на кожній з нових сторінок, і так далі. Деякі ігнорують посилання, які ведуть до графічним і звуковим файлам, файлам мультиплікації; інші ігнорують посилання до ресурсів типу баз даних WAIS (Wide Area Information Server); інші проінструктовані, що потрібно переглядати в першу чергу найбільш популярні сторінки.

Залежно від організації пошукового механізму розрізняють наступні засоби пошуку: агенти, павуки, кроулери, роботи використовуються для збору інформації про документи, які перебувають у мережі Інтернет.

Агенти - самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого від Вашого імені. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих по їх відвідуваності. Агенти можуть обробляти вміст документів, знаходити і індексувати інші види ресурсів, не лише сторінки. Вони можуть також бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.

Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.

Кроулери переглядають заголовки і повертають тільки перше посилання.

Роботи можуть бути запрограмовані так, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їх природи вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Однак є методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.

Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі.

База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача, будуть поміщені першими в списку.

В даний час використовуються наступні критерії для порівняння пошукових систем:

1. навігаційний пошук - Порівнюється здатність пошукачів знаходити відомі сайти. Наприклад, для здійснення навігаційного пошуку задаються такі запити, як «сбербанк», «комсомольська правда», «Рамблер», «газета. ру »і т. п. Кращим результатом у відповідь на навігаційний запит є шуканий сайт на першій позиції пошукової видачі.

2. Тематичний (Експертний) - порівнюється здатність пошукачів формувати видачу, близьку до ручної експертної добірці посилань. Наприклад, для здійснення тематичного пошуку задаються такі запити, як «аквапарки Казані» або «духовні семінарії Санкт-Петербурга». Подібний вид пошуку повинен містити повний список сайтів відповідних організацій.

Сайти-маркери підбираються вручну на основі видачі всіх пошукових машин, а також за допомогою веб-каталогів, «жовтих сторінок» і т. П. Для кожної з пошукових машин аналізатор перевіряє, який відсоток маркерів був знайдений.

3. підказки- Порівнюється здатність пошукачів помічати помилки при наборі запиту і підказувати користувачам правильні варіанти.

Більшість пошукових машин, запідозривши при введенні пошукового запиту друкарську помилку, намагаються запропонувати користувачеві правильне (на думку пошукача) написання запиту. Якість підказок є важливим доповненням до загального якості пошуку.

В даному аналізаторі шукається правильна підказка в пошуковій видачі по запиту з явною помилкою і оцінюється кількість випадків, коли підказка містить «правильну» форму запиту.

4. помилки - Порівнюється здатність пошукачів не реагувати на явні помилки при наборі запиту і видавати результати як для запитів без помилок.

Пошуковик в разі помилки може дотримуватися однієї з трьох стратегій:

- Ніяк не обробляти ці випадки і шукати строго те, що ввів користувач;

- Зрозуміти, що мала місце помилка, проте, знайти те, що введено, і поруч запропонувати правильну, на думку пошукової машини, форму - «можливо, ви мали на увазі [правильне написання запиту]»

- Зрозуміти, що мала місце помилка, не шукати помилкове написання, а відразу шукати правильну форму.

Залежно від обраної стратегії, користувач або не побачить, що він помилився при написанні, або побачить це і зробить зайвий клік (якщо захоче), або навіть не здогадається про власну помилці.

В даному аналізаторі порівнюється пошукова видача по «правильному запитом» і по декільком формам можливих його помилок. Оцінюється ступінь близькості пошукової видачі за запитом з помилкою до видачі по «правильному» запитом.

5. цитати - Порівнюється здатність пошукачів знаходити джерела відомих цитат.

Цитатний пошук - це пошук конкретного тексту по його відомому фрагменту. Ставлячи такий запит, користувач (зазвичай зацікавився цитованим в Мережі висловлюванням) намагається знайти оригінальний твір, і завдання пошукача видати не уривки і витяги з нього, а повний текст.

Для пошуку цитат можна використовувати типові (подвійні) лапки, виду « або ". Слова запиту, укладеного в подвійні лапки, шукаються в документах саме в тому вигляді і в тому порядку, як вони були задані в запиті. Це дуже ефективний спосіб пошуку. Його застосування забезпечує успішність понад 60%. Тут важливо враховувати те, що цитування повинно бути точним.

6. оригінали - Порівнюється здатність пошукачів знаходити першоджерела.

7. Синоніми - Порівнюється здатність пошукачів правильно розпізнавати однакові за змістом запити з різними формулюваннями.

Один і той же питання можна задати десятком способів. Наприклад, для користувачів запити «як дізнатися адресу за номером телефону», «пошук адреси за номером телефону» і «знайти адресу за номером телефону» мають однаковий сенс, це запити-синоніми.

Запити-синоніми з'являються з різних причин:

- При використанні загальноприйнятих скорочень - «погода в Санкт-Петербурзі» і «погода в Спб»;

- При використанні транслітерації - «характеристики toyota camry» і «характеристики тойота камрі»;

- При використанні різних відмінків - «сценарій зустрічі Нового Року» і «сценарій зустріч Новий Рік»;

- При використанні перестановок слів - «ремонт АКПП», «АКПП ремонт»;

- При використанні жаргонізмів - «скачати мультфільми», «скачати мультики»;

- При використанні слів, що не несуть смислового навантаження - «швидкий інтернет», «супер швидкий інтернет»;

- При використанні синонімів слів, що входять в запит - «сумні вірші», «сумні вірші».

Пошукові системи у відповідь на запит повинні підібрати найкращий набір посилань. Найчастіше в результатах пошуку люди очікують побачити інформацію, відповідну змістом, а не букві запиту. З цього випливає, що видача у відповідь на синонімічні запити повинна бути однаковою, незважаючи на те, що формулювання відрізняються один від одного.

Аналізатор пошуку за запитами-синонімів перевіряє, наскільки збігається видача за різними запитами, які мають однакове значення. Образно можна сказати, що аналізатор в якійсь мірі показує здатність пошукача «розуміти» сенс запиту.

8. спам - Порівнюється здатність пошукачів видаляти спам з результатів пошуку.

Експерти регулярно переглядають Тор10 видачі по вибірці пошукових запитів, відзначаючи сайти, які, з їх точки зору, містять елементи пошукового спаму.

Використовуються наступні категорії пошукового спаму:

- Doorway - безумовний спам: відведення користувача до інших сторінок;

- Spamcatalog - безумовний спам: спамерські каталоги;

- Spamcontent - безумовний спам: спамерських запозичений контент;

- Pseudosite - безумовний спам: сайт, що маскується під корпоративний (псевдофірма);

- Catalog - каталог;

- Board - дошки оголошень;

- Domainsale - домени на продаж;

- Secondary - вторинний, запозичений контент;

- Partner - будь-які партнери;

- Spamforum - заспамленності форум;

- Searches - результати пошуку.

Якість пошуку, здійснюваного пошуковими системами, можна визначити як відсоток нових користувачів, задоволених результатами пошукової машини і вибрали її для себе в якості пошукач за умовчанням. Наприклад, прийшли 1000 нових користувачів, через рік залишилися 400, інші пішли до конкурентів, якість пошукача - 0,4 (40%).

Інше визначення характеризує якість пошуку як відсоток відповідей, оцінених експертами як ідеальні ( "валідність", "релевантні", "задовільні") по відношенню до загальної кількості відповідей пошукової системи за одиницю часу. Наприклад, протягом тижня (дня, години, 10 секунд і т. П.) Пошуковик видав 10000 відповідей, асесори оцінили всі, хорошими визнані 3500, якість пошукача - 0,35 (35%).

У Росії найбільш великими і популярними пошуковими покажчиками є:

· «Яndex» (www.yandex.ru)

· «Pамблер» (www.rambler.ru)

· «Google» (www.google.ru)

· «Апорт2000» (www.aport.ru)

Для оптимальної та швидкої роботи з пошуковими системами існують певні правила написання запитів. Докладний перелік для конкретного пошукового сервера можна, як правило, знайти на самому сервері по посиланнях Допомога, Підказка, Правила складання запиту і т.п.

Ставлячи образ пошуку в пошуковій системі, слід мати на увазі, що алгоритми пошуку інформації в мережі, подібно пошуку інформації в базі даних, засновані на логіці.

1. Кілька ключових слів, розділених пропуском, відповідають операції логічного додавання: АБО (OR). Наприклад, вказавши ключ: <Соціальна комунікація », ми отримаємо список всіх документів, в яких зустрічається слово« Соціальна »або слово« комунікація ».

2. Кілька слів, укладених в лапки, сприймаються як єдине ціле. Наприклад, «Соціальна комунікація».

3. Знак + між словами рівносильний операції логічного множення: І (AND). Вказавши в запиті ключ <Соціальна + комунікація>, отримаємо всі документи, в яких є ці два слова одночасно, але вони можуть бути розташовані в будь-якому порядку і врозкид.

4. Знак *, або підстановлювальний знак, - це маловідома функція, яка може бути дуже дієвою. Якщо в запиті вказати зірочку (*), то вона буде означати будь невідоме пошукове слово, що дозволяє знайти найкращі відповідності. Наприклад, запит видасть результати про багатьох продуктах Google. Запит <Дума проголосувала * по * законопроекту> видасть результати про різних голосуваннях по різних законопроектів. Зверніть увагу, що оператор * працює тільки з цілими словами, а не частинами слів.

Деякі слова і символи за замовчуванням виключаються із запиту в зв'язку з їх малою інформативністю. Це так звані стоп - слова - самі частотні слова російської та англійської мов, наприклад, прийменники, частки і артиклі. Дуже часто опускаються апострофи і тире. Більшість пошукових машин їх знають і самі звільняють від них сформульований користувачем запит. Це пов'язано з тим, що факт присутності цих слів може помітно сповільнити пошук і негативно вплинути на його результат і повноту. У той же час є можливість визначити необхідність цих слів в запиті. Для цього слід взяти запит в подвійні лапки або скористатися пошуком точної фрази в розширеному пошуку.

Якщо запит складено з декількох слів без застосування операторів і конструкцій мови запитів, то машина буде намагатися знайти документи, в яких зустрічаються всі слова запиту. При цьому для кожного запиту завжди вводиться так зване обмеження контексту - позитивне число. За замовчуванням приймається відстань рівне 40 словами.

2.2. завдання

Проаналізувати роботу пошукових систем Google, Яндекс, Апорт, Рамблер на предмет якості здійснюваного ними пошуку та освоїти основні прийоми пошуку інформації в мережі Інтернет.

2.3. Порядок виконання

1. Протестувати пошукові системи Google, Яндекс, Апорт, Рамблер.

2. Заповнити таблицю «Порівняння пошукових систем» (див. Таблиця 2.1).

3. Зробити висновок про якість пошуку, здійснюваного кожною з розглянутих пошукових систем.

4. Здійснити пошук засобами вищеперелічених пошукових систем і заповнити таблицю «Результати пошуку» (див. Таблиця 2.2).

5. Доповнити таблицю 4 самостійно побудованими запитами.

6. Ознайомитись з обраними документами і оцінити їх релевантність (змістову відповідність результатів пошуку вказаному запиту).

7. Порівняти результати пошуку (тільки перші блоки) всіх серверів і прокоментувати їх.

8. Підготувати звіт про виконання лабораторної роботи, приклавши до нього заповнені таблиці 2.1 (з проставленим рейтингом проаналізованих систем) і 2.2.

Таблиця 2.1

Порівняння пошукових систем (за шкалою від 0 до 5)

         
 Критерій / Пошукова система  Google  Yandex  Rambler  Mail.ru
 інтерфейс        
 навігаційний пошук        
 Тематичний пошук        
 підказки        
 помилки        
 цитати        
 Оригінали: новини        
 Синоніми        
 спам        
 Рейтинг:        

Таблиця 2.2

Результати пошуку

         
 Ключова фраза / Пошукова система  Google  Yandex  Rambler  Mail.ru
 Соціальні комунікації в Інтернеті        
 "Соціальні комунікації в Інтернеті"        
 Соціальні + комунікації + Інтернет        
 Освітні стандарти * покоління        
Ваш запит        
 Рейтинг:        

2.4. література

1. Дніпрова А. Г. Google. Секрети ефективного пошуку і додаткові сервіси / А. Дніпрова. - СПб .: Пітер, 2007. - 160 с. мул.

2. Паршукова Г. Б. Методика пошуку професійної інформації: навчально-методичний посібник для вузів / Г. Б. Паршукова. - СПб .: Професія, 2006. - 222 с.

3. Плаксина А. А. Інтернет в освітньому процесі навчального закладу / А. А. Плаксіна, Е. А. Тихонов. - Дистанційне і віртуальне навчання.- 2010 року № 7. - С. 15-24.

4. Романенко В. Н. Мережевий інформаційний пошук: практичний посібник / В. Н. Романенко, Г. В. Нікітіна. - СПб .: Професія, 2003. - 285 с.

5. Ланде, Д. В. Пошуки знань в Internet [Текст] / Д. В. Ланде. - М .: Вільямс, 2005.- 271 с.

6. Левін Дж. Інтернет для «чайників»: [пер. з англ.] / Джон Левін, Маргарет Левін-Янг, Керол Бароди. - М .: Діалектика, 2009. - 338 с. мул.

7. Правила пошуку в Rambler [Електронний ресурс]. - Режим доступу: http://www.innov.ru/rus/search/ramblerrules.htm

8. Алгоритм пошуку інформації в Інтернеті [Електронний ресурс]. - Режим доступу: http://www.openclass.ru/blogs/205402

9. Базові можливості - Яндекс. допомога: Пошук [Електронний ресурс]. - Режим доступу: http://help.yandex.ru/search/

10. Пошукові системи в мережі Інтернет [Електронний ресурс]. - Режим доступу: http://citforum.ru/internet/search/searchsystems.shtml


[1] URL (Universal Resource Locator) - адреса сторінки в Інтернеті.

[2] DNS - Domain Name System

[3] Індексація - це прихід пошукового робота на сайт. Спеціальна програма обходить всі ресурси в інтернеті і передає їх вміст для обробки індексатора. Сторінка може бути показана в результатах пошуку тільки після того, як вона занесена в індекс пошукача. Якщо ж сторінка не занесена в індекс, пошукова система нічого про неї не знає і не може використовувати інформацію про неї, отже, в результатах пошуку ця сторінка не з'явиться.Оцінка якості сайту | Передмова
© um.co.ua - учбові матеріали та реферати