Ручная проверка файлов в модуле SenDev: Инозапрет 168-ФЗ

Страница «Проверка файлов (168-ФЗ)» предназначена для ручной проверки содержимого файлов без запуска полного сканирования сайта.

Она помогает быстро проверить отдельные документы перед публикацией, отправкой или размещением на сайте. Это особенно удобно, когда нужно проанализировать один или несколько файлов, не затрагивая остальной контент.

На этой странице можно:

  • загрузить файлы для проверки;
  • проверить извлечённый из них текст по словарям модуля;
  • увидеть найденные совпадения;
  • просмотреть контекст обнаруженных слов;
  • при необходимости выполнить проверку без учёта белого списка.

Проверка файлов (168-ФЗ)

Когда использовать страницу

Страница особенно полезна в следующих случаях:

  • перед публикацией документов на сайте;
  • при проверке загруженных пользователями файлов;
  • при анализе отдельных материалов без запуска полного сканирования;
  • при повторной проверке файла после исправлений;
  • когда нужно быстро оценить содержимое документа вручную.

Что находится на странице

Страница состоит из нескольких основных блоков:

  • информация о параметрах словарей;
  • область загрузки файлов;
  • параметр проверки без белого списка;
  • результаты проверки по каждому файлу.

Параметры словаря

В верхней части страницы отображается краткая справочная информация о настройках словарей, которые используются при проверке файлов.

Обычно здесь можно увидеть:

Хранилище

Показывает, откуда модуль берёт словари для анализа.

Набор используемых словарей

Показывает, какие словари участвуют в проверке.

Каталог словарей

Показывает расположение словарей, используемых модулем.

Для конечного пользователя этот блок нужен в основном для контроля текущих настроек проверки.

Загрузка файлов

Основной рабочий блок страницы — это область загрузки файлов.

Файлы можно:

  • выбрать через стандартное окно выбора;
  • перетащить в область загрузки мышью.

После выбора на странице отображается информация о количестве выбранных файлов и их названиях.

Поддерживаемые форматы

Страница поддерживает проверку файлов следующих форматов:

  • PDF;
  • DOC;
  • DOCX;
  • TXT;
  • HTML;
  • XLSX.

Это позволяет анализировать как обычные текстовые документы, так и таблицы, страницы и офисные файлы.

Ограничения и особенности проверки

При работе со страницей важно учитывать несколько особенностей.

Проверяются только файлы с извлекаемым текстом

Модуль анализирует именно текстовое содержимое файла. Если текст извлечь не удаётся, проверка результата не даст.

Например, это возможно в случаях, когда:

  • файл пустой;
  • файл повреждён;
  • PDF представляет собой скан без текстового слоя;
  • формат файла не позволяет получить текст в текущей конфигурации сервера.

Не рекомендуется загружать слишком много файлов одновременно

Страница рассчитана на быструю ручную проверку. Для удобной работы лучше проверять небольшое количество файлов за один раз.

Размер файла зависит от настроек сервера

Максимально допустимый размер загружаемого файла определяется настройками сайта и сервера. Если файл слишком большой, он может не загрузиться.

Проверка без белого списка

Под областью загрузки расположен параметр «Не использовать белый список при проверке».

Если этот параметр включён, модуль будет проверять файлы без учёта исключений из белого списка. Это позволяет увидеть все потенциальные совпадения только по словарям.

Такой режим полезен, когда нужно:

  • выполнить более строгую проверку;
  • проверить, какие слова попадают в результат без исключений;
  • дополнительно перепроверить спорный документ.

Запуск проверки

Для запуска используется кнопка «Проверить файлы».

После нажатия модуль:

  1. загружает выбранные файлы;
  2. пытается извлечь из них текст;
  3. анализирует полученное содержимое;
  4. показывает результаты отдельно по каждому файлу.

Область загрузки файлов и кнопка Проверить файлы

Результаты проверки

После завершения проверки на странице выводится итоговое сообщение.

Возможны два основных варианта:

  • нарушения не найдены;
  • найдено определённое количество потенциальных нарушений.

Если часть файлов не удалось обработать, страница дополнительно покажет сообщение об ошибке и укажет, сколько файлов не получилось проверить.

Результаты по каждому файлу

Для каждого загруженного файла на странице выводится отдельный блок с результатами.

В нём обычно отображаются:

Имя файла

Название проверяемого файла.

Сведения о файле

Служебная информация о типе файла, способе извлечения текста и объёме обработанного текста.

Для конечного пользователя этот блок полезен тем, что помогает понять, удалось ли модулю корректно прочитать файл.

Ошибка обработки

Если файл не удалось проверить, в этом блоке отображается причина. Например:

  • файл не загрузился;
  • формат не поддерживается;
  • текст не найден;
  • содержимое нельзя извлечь.

Таблица найденных совпадений

Если текст успешно извлечён и в нём найдены совпадения, ниже показывается таблица результатов.

Таблица результатов

Если нарушения найдены, для файла отображается таблица с результатами проверки.

Для каждой записи обычно выводятся:

Слово

Найденное слово или выражение.

Тип

Категория найденного совпадения.

Контекст

Фрагмент текста, в котором найдено слово.

Найденное слово в контексте визуально выделяется, чтобы его было проще заметить и оценить.

Как работать со страницей

Рекомендуемый порядок работы:

  1. Откройте страницу «Проверка файлов (168-ФЗ)».
  2. Загрузите один или несколько файлов.
  3. При необходимости включите параметр «Не использовать белый список при проверке».
  4. Нажмите «Проверить файлы».
  5. Просмотрите итоговое сообщение по проверке.
  6. Изучите результаты по каждому файлу отдельно.
  7. Если найдены совпадения, проверьте контекст и при необходимости исправьте исходный документ.
  8. После исправления повторно загрузите файл и выполните проверку ещё раз.

Когда эта страница удобнее полного сканирования

Страница «Проверка файлов (168-ФЗ)» удобнее общего сканирования сайта, когда нужно проверить:

  • один документ перед публикацией;
  • приложенный файл;
  • выгруженный отчёт;
  • описание или таблицу в формате XLSX;
  • отдельный PDF или DOCX-файл после редактирования.

Для таких задач ручная проверка файла обычно быстрее и удобнее, чем запуск полной проверки сайта.

Что важно учитывать

  • Если документ не содержит извлекаемого текста, модуль не сможет его проанализировать.
  • PDF-сканы без текстового слоя могут не дать результата проверки.
  • Проверка без белого списка показывает более строгий результат.
  • Найденные совпадения нужно оценивать с учётом контекста, а не только по самому слову.
  • Если страница недоступна в демо-режиме, для использования этой функции потребуется активная лицензия модуля.

Доступность функции

Проверка файлов может быть недоступна в ограниченном режиме использования модуля. В этом случае на странице будет показано сообщение о недоступности функции.

Для пользователя это означает, что сам раздел предусмотрен модулем, но его использование зависит от действующего режима лицензии.

Итог

Страница «Проверка файлов (168-ФЗ)» используется для быстрой ручной проверки документов и файловых материалов. Она позволяет загрузить файл, извлечь из него текст, проверить содержимое по словарям модуля и получить понятный список найденных совпадений с контекстом.

Пример результата проверки файла с таблицей найденных совпадений