Типи пошуку

Для пошуку критичної інформації в проіндексованих документах, AlertCenter використовує такі типи запитів:

  • повнотекстовий пошук;
  • фразовий пошук;
  • пошук схожих за змістом документів;
  • пошук по атрибутам документів;
  • пошук нерозпізнаних документів;
  • складні запити;
  • пошук за регулярними виразами;
  • пошук по цифровим відбиткам;
  • пошук за словником.

1. Повнотекстовий пошук

Найпростіший вид пошуку, який дозволяє знаходити документи, що містять задані слова, їх різні форми і синоніми, незалежно від того, в якій частині документа вони знаходяться. До можливостей повнотекстового пошуку в SearchInform AlertCenter також відноситься використання морфології. Цей режим дозволяє ввести в пошуковий рядок одне слово, а пошук тексту буде здійснюватися по всіх його словоформам (наприклад, компанія - компанії - компанією - компанію - ... тощо). Виходячи з цього, вкрай рекомендується установка морфологічної бази даних для мови, на якій буде здійснюватися пошук.

2. Фразовий пошук

Це пошук в пропозиціях з можливістю обмеження відстані між словами запиту і фіксування порядку слів.

SearchInform AlertCenter дозволяє використовувати синонімічні ряди для фразового пошуку. Вони допомагають здійснювати пошук з урахуванням всіх можливих підходящих за змістом комбінацій слів, які відповідають запиту. При цьому, якщо пошук здійснюється з використанням фрази, яка включає в себе слова, для яких задані синоніми, то SearchInform AlertCenter автоматично перебере всі можливі варіанти компоновки слів і включить всі документи, які їх містять, в результати пошуку.

Фразовий пошук

3. Пошук схожих документів

При «пошуку схожих» в якості запиту використовується цілий текст і аналізується ступінь відповідності проіндексованих документів з текстом запиту. Цей тип запитів рекомендується використовувати для виявлення однотипних структурованих документів, які включають загальні елементи - звіти, рахунки, договори, резюме тощо.

Пошук схожих

4. Пошук за атрибутами документів

Використання цього виду пошуку дозволяє шукати документи за їх атрибутами (форматом, відправниками, одержувачами тощо). Це дозволяє дізнаватися в оповіщеннях про збіг атрибутів перехопленої інформації із заданими в алерті атрибутами. Так, наприклад, можна відстежувати активність окремих доменних користувачів, IP адреси, визначені адреси електронної пошти, документи тощо.

За допомогою такого виду пошуку також можна відстежувати копіювання або пересилку файлів певних форматів. Наприклад, для проектних організацій таким форматом є файли, створені в програмі AutoCad, і така можливість дозволить їм уникнути витоку інформації з підприємства.

Пошук за атрибутами

5. Пошук нерозпізнаних документів

У SearchInform AlertCenter можна налаштувати автоматичні повідомлення за документами, які не вдалося проіндексувати. При цьому можна шукати такі типи документів:

  • нерозпізнані документи всіх форматів;
  • нерозпізнані документи обраних форматів;
  • нерозпізнані документи, за винятком файлів обраних форматів.

Пошук нерозпізнаних

6. Складні запити

Можливість створення складних запитів дозволяє гнучко задавати умови, за якими буде здійснюватися пошук. Складні запити можуть включати в себе два і більше простих запитів, об'єднаних за допомогою логічних операторів. Їх доцільно застосовувати в тому випадку, якщо поставлене завдання неможливо вирішити за допомогою простих запитів. Складні запити дозволяють комбінувати до 26 простих текстових і атрибутних запитів за допомогою логічних операторів AND, OR, AND NOT.

Так, наприклад, в SearchInform AlertCenter можливо задати умови, відповідно до яких буде перевірятися тільки вихідна кореспонденція конкретного співробітника, в якій містяться документи певного типу.

Складні запити

7. Пошук за регулярними виразами

Шаблони регулярних виразів дають можливість шукати дані по їх формі, а не по точному значенню. Шаблон дозволяє знайти всі документи, які містять дані вказаної структури. Використовуючи складні регулярні вирази (ланцюжки регулярних виразів), можна відстежити пересилання інформації з бази даних, яка містить безліч полів. Для цього створюються ланцюжки шаблонів, кожен з яких буде налаштований на окреме поле.

Налаштування:

  • Мінімальна довжина ланцюжка - кількість шаблонів з ланцюжка, яка повинна бути знайдена для спрацьовування алерта (наприклад, з 6 полів бази в документі, який пересилається, можуть бути присутні лише 4)
  • Мінімальна кількість ланцюжків - кількість знайдених ланцюжків, необхідна для спрацювання алерта (скільки записів з бази даних передавалося)
  • Мінімальна довжина пробілів у ланцюжку - кількість символів між окремими шаблонами ланцюжка (між записами з бази даних може бути присутній інший текст, наприклад  «номер паспорта»)

Пошук за регулярними виразами

8. Цифрові відбитки

Ця технологія дозволяє виявляти присутність будь-якого контрольованого документу у перехопленому трафіку. Технологія пошуку документів за цифровим відбитками була раніше успішно випробувана компанією SearchInform в продукті PlagiatInform, призначеному для виявлення плагіату в навчальних роботах, наукових працях, публіцистиці тощо.

Цифрові відбитки дозволяють здійснювати пошук документів будь-якого розміру і структури, починаючи з різних фінансових звітів і закінчуючи персональними даними співробітників, акціонерів або клієнтів компанії. При цьому виявлення документів можливо навіть в тому випадку, якщо вони відрізняються від оригіналу, наприклад, коли документ скомпільований з декількох.

Документи, пошук яких необхідно здійснити серед перехоплених даних, поміщаються в спеціальну директорію – сховище конфіденційних документів. SearchInform AlertCenter самостійно індексує їх вміст і створює цифровий відбиток для кожного з них, розміщуючи «зліпок» в каталозі цифрових відбитків. При розширенні списку конфіденційних документів достатньо скопіювати нові у зазначене сховище, після чого SearchInform AlertCenter автоматично виконає всі наступні операції, необхідні для їх включення до списків пошуку.

Завдяки тому, що в базі даних зберігаються не самі конфіденційні документи, а їх «знімки», виключається витік конфіденційної інформації в результаті несанкціонованого доступу до бази даних співробітників компанії або сторонніх зловмисників.

Пошук по цифрових відбитках

9. Пошук за словником

Цей спосіб пошуку дозволяє виявляти в перехоплених даних документи, що містять слова і словосполучення із заздалегідь сформульованого переліку (словника). При цьому можна зазначити як відсоток слів зі словника, що міститься в документі, так і відсоток документа, що міститься в словнику. Цей спосіб пошуку зручний, насамперед, для виявлення документів, пов'язаних із специфікою діяльності компанії: звітів, бізнес-планів, технологічних розробок.

Пошук за словником

10. Пошук за словником синонімів

Спеціально розроблений унікальний словник синонімів – потужний засіб виявлення корупційних схем і «відкатів»: оскільки в переговорах про передачу хабара саме слово «хабар» зазвичай явно не фігурує, в словнику синонімів можуть бути зазначені інші слова для її позначення («подарунок», «подяка», «відкат» тощо), які SearchInform AlertCenter виявить у перехоплених даних. Вбудований в додаток словник може розширюватися за бажанням користувача шляхом включення нових слів, а також цілих тематичних розділів.

Пошук за словником синонімів