Лекція №4 (1 година) Тема: «Пошук інформації в Internet»




Скачати 61.03 Kb.
НазваЛекція №4 (1 година) Тема: «Пошук інформації в Internet»
Дата конвертації14.10.2013
Розмір61.03 Kb.
ТипЛекція
skaz.com.ua > Інформатика > Лекція
Лекція №4

(1 година)
Тема: «Пошук інформації в Internet»
Пошуко́ва систе́ма онлайн-служба (програмно-апаратний комплекс з веб-інтерфейсом), що надає можливість пошуку інформації в Інтернеті. У просторіччі під пошуковою системою розуміють веб-сайт, на котрому розміщено інтерфейс (фронт-енд) системи. Програмною частиною пошукової системи є пошуко́ва маши́на (пошуко́вий руші́й) —комплекс програм, що забезпечує функціональність пошукової системи і, зазвичай, є комерційною таємницею компанії-разробника пошукової системи.

Пошукові cистеми зазвичай мають три компоненти:

  • агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;

  • база даних, яка містить інформацію, що зібрано павуками;

  • пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.

  • Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

  • Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

  • Кроулери переглядають заголовки і повертають тільки перше посилання.

  • Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

^ ЯК ПРОХОДИТЬ ПОШУК ІНФОРМАЦІЇ

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проіндексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію.

Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть документи, що є найбільш релевантними до запиту користувача.

Релевантність – основне поняття при індексації документа в пошукових системах. Релевантність – міра відповідності, тобто це відповідність змісту знайденої сторінки до запиту користувача. Але комп'ютер - не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантности. Теоретичних методів визначення релевантності більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Рамблер, Яндекс) і статистичне (Google).


Щоб покращити пошук можна використовувати ряд службових операторів

Оператор

Опис

+

Логічне І. Даний оператор є за замовченням і діє першим, тобто запит українські реферати є рівнозначним до  запиту українські + реферати.

-

Логічне НІ дозволяє виключити із списку результатів документи, в яких міститься слово, що йде після оператора. Наприклад, за запитом: кавовий напій - кава, будуть знайдені тільки ті документи, в яких є слова кавовий напій, але немає слова кави.

|

Логічне АБО дозволяє знайти документи, які містять хоча б одне слово в запиті. Наприклад, за запитом: казаки | козакибудуть знайдені документи, які містять або слово казаки, або слово козаки.

Окрім логічних виразів можна визначати відстань між словами запиту.

Оператор

Опис

"..."

Подвійні лапки дозволяють знаходити точне словосполучення, що в них вказано. При цьому фіксується граматична форма слів, тобто за запитом "погода в Криму" будуть знайдені документи, в яких міститься таке саме словосполучення, -погода в Криму.

{...}

Фігурні дужки дозволяють знаходити словосполучення, що є близькими до вказаного в них, тобто на відміну від попереднього оператора за запитом {погода в Криму} будуть знайдені документи, що містять наступні словосполучення: "погода в Криму", "погоді в Криму", "погоди в Криму", тобто граматична форма слів в даному випадку не фіксується.

[n, ...]

Цей оператор використовується в тому випадку, якщо необхідно обмежити відстань між словами запиту. Наприклад, за запитом [5, мобільний телефон] будуть знайдені тільки ті документи, в яких слова мобільний і телефон розташовані у фрагменті тексту, що не перевищує 5 слів.


Передбачені також оператори, що дозволяють обмежити область пошуку певним полем документа.

Оператор

Опис

Title

Даний оператор дозволяє шукати тільки за назвою документа. Наприклад, за запитом: title(прайс-лист) будуть знайдені ті документи, в заголовку яких міститься прайс-лист, за запитом title("дошка оголошень") будуть знайдені документи, які містять в заголовку словосполучення дошка оголошень.

Heading

Даний оператор дозволяє проводити пошук по назвах розділів документів. Наприклад, за запитом: heading(бізнес-план)будуть знайдені документи, що містять бізнес-план в полі heading документів.

Схожі:

Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЗаліковий модуль 2 Пошук та обробка текстової інформації. Лекція...
Така надійність забезпечується тим, що в Internet немає єдиного центра керування, І тому, якщо виходять із ладу деякі лінії зв'язку...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЛекція №3 (1 година) Тема: «Браузер Internet Explorer»
Починаючи з версії 0, Microsoft поширювала Internet Explorer у складі операційної системи Windows, що дозволило йому швидко збільшити...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЛекція №2 (1 година) Тема: «Функціонування І ресурси мережі Internet»
Вузлові комп’ютери цієї мережі, на яких зберігається в різних формах інформація, називаються серверами. Комп’ютери в мережі одержують...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconТема Організація продажу товарів через Internet-аукціони
Ознайомитися з структурою, типами Internet-аукціонів, технологією їх роботи та особливостями продажу товарів, представлених у окремих...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЛекція №1 Тема: Основні поняття інформатики
...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconТема 1 Предмет І метод Економічної теорії
...
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЛекція №12 Тема: Система інформаційного забезпечення управлінської діяльності
Види соціально-педагогічної інформації та принципи її добору (за Л. М. Калініною)
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconЛекція 11 Тема: фінансування культури, спорту та засобів масової інформації
У відповідності з функціональною структурою видатків на культуру та мистецтво до них відносяться витрати на
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconРеферат На тему: Поняття та етапи розвитку інформаційних систем
До інформаційних процесів належать пошук, збирання, зберігання, передавання, опрацювання інформації тощо
Лекція №4 (1 година) Тема: «Пошук інформації в Internet» iconУгода користувача
Ця Угода регламентує відносини між Адміністрацією інформаційного ресурсу «euro 2012 (Ukraine)» І фізичною особою, що здійснює пошук...
Додайте кнопку на своєму сайті:
Школьные материалы


База даних захищена авторським правом © 2015
звернутися до адміністрації
skaz.com.ua
Головна сторінка