«Умное» выявление дублей и противоречий в корпоративных базах знаний: чистка контента и повышение точности поиска

Умное выявление дублей и противоречий в корпоративных базах знаний: чистка контента и повышение точности поиска

Изображение: recraft

В современной организации информация становится таким же важным ресурсом, как финансы, оборудование или персонал. Регламенты, внутренние инструкции, отчеты, методические материалы, техническая документация формируют корпоративную базу знаний. Качество ее наполнения часто имеет прямую связь со скоростью работы персонала и количеством ошибок.

Вместе с ростом данных в базе знаний обычно возникают и проблемы. Часто документы дублируются, противоречат друг другу, теряют актуальность. Со временем база знаний из полезного ресурса превращается в перегруженное хранилище, в котором сложно ориентироваться даже опытным сотрудникам. В результате поиск нужной информации занимает все больше времени, а доверие к данным снижается. Как результат, сотрудники перестают использовать и актуализировать базу знаний, что негативно влияет на процессы обучения и автоматизацию рутинных задач. Чтобы избежать негативных последствий, можно воспользоваться интеллектуальными методами очистки и анализа данных.

Корпоративная база знаний создается в виде внутреннего портала, wiki-системы, электронного архива документов или интегрированной платформы, связанной с CRM (Customer Relationship Management, система управления взаимоотношениями с клиентами) и ERP (Enterprise Resource Planning, система планирования ресурсов предприятия). Ее основная задача – обеспечить сотрудникам быстрый доступ к проверенной и полезной информации. Благодаря этому упрощается процесс обучения новых сотрудников, процессы стандартизируются и снижается зависимость компании от отдельных специалистов, которые являются единственными хранителями какой-либо специфической информации.

При отсутствии регулярного контроля и актуализации база знаний со временем утрачивает свою ценность. Одной из самых распространенных проблем является появление дубликатов. Это могут быть одинаковые документы с разными названиями или форматами, или целые разделы, содержащие одну и ту же информацию с незначительными изменениями. Чаще всего дубликаты возникают по причине копирования файлов между подразделениями, сохранения нескольких версий одного материала или отсутствия единых стандартов оформления.

Следующей серьезной проблемой являются противоречия – когда документы или ветки базы знаний содержат несовместимую информацию. Например, в одном регламенте указывается один срок выполнения задачи, в другом – иной. В технической документации могут встречаться разные требования к одному и тому же процессу. В таких ситуациях сотрудники вынуждены самостоятельно разбираться, какая версия является правильной, что может привести к ошибкам. Также существует проблема информационного шума – когда в базе знаний со временем накапливаются черновики, устаревшие инструкции, временные материалы и просто ненужные документы. Это мешает пользователю быстро найти нужную информацию.

Для решения этих проблем можно использовать инструменты автоматизации. Самый простой способ выявления дубликатов — сравнение текстов. Например, применяются методы поиска совпадений, контрольные суммы файлов и сравнение строк. Такой способ работает, когда документы практически идентичны, но оказывается неэффективным при перефразировании.

Однако, более современные системы способны применять семантический анализ. Для этого система преобразует тексты в числовые векторы, которые отражают их смысловое содержание. Далее вычисляется процент сходства между документами. Если превышен определенный порог – система считает материалы дубликатами. Благодаря такой технологии можно эффективно выявлять повторы даже в случаях, когда тексты отличаются формулировками. К примеру, «обновление выполняется раз в шесть месяцев» и «обновление проводится раз в полгода» будут распознаны системой как равнозначные.

Однако, более сложной задачей является поиск противоречий, потому что ставится задача проанализировать логические связи между утверждениями. Для этого применяются языковые модели и методы логического анализа. Например, система ищет несовпадения в числовых значениях, сроках, правилах и ограничениях.

Более того, выполняется анализ контекста информации. Например, система выявит конфликт в случае, если в одном документе говорится, что процедура разрешена – а в другом что она запрещена. Далее сигналы об обнаружении конфликта передаются на проверку экспертам (администраторам базы знаний), которые принимают окончательное решение. Здесь важно понимать, что полностью автоматическое удаление противоречий не всегда возможно. Часто требуется участие экспертов, поскольку система не может на сто процентов верно оценить реальный смысл и актуальность информации.

Можно выделить несколько ключевых этапов системы интеллектуальной чистки данных. Сперва происходит сбор документов из разных источников: порталов, файловых хранилищ, почтовых серверов, CRM и других систем. Далее выполняется предварительная обработка текста: нормализация терминов, приведение форматов документов к единому стандарту. После этого формируются кластеры данных и документы группируются по смысловому сходству, что упрощает поиск дубликатов. Затем внутри кластеров выполняется анализ для выявления повторов и противоречий. На финальной стадии происходит формирование отчетов и рекомендаций для администраторов базы знаний. Они получают перечень проблемных документов и принимают решение об их удалении, объединении или корректировке. Дополнительной полезной функцией системы является возможность предложения наиболее подходящего варианта объединения информации. Например, выявляется наиболее актуальная и полная версия документа, которая дополняется ценными фрагментами из других источников.

На практике интеллектуальная очистка баз знаний реализуется с использованием современных инструментов анализа текста и машинного обучения. Для обработки данных применяются языки программирования, например, Python, специализированные библиотеки, семантические поисковые системы, например, Elasticsearch, а также платформы машинного обучения.

Тем не менее такие системы имеют ограничения. Алгоритмы могут допускать ошибки, особенно при работе со сложными текстами, например, юридическими документами. Также высокая вычислительная нагрузка требует значительных ресурсов. Кроме того, настройка и обучение моделей требуют времени и участия экспертов. Поэтому использование таких автоматизированных решений обычно сочетается с экспертным контролем или специализированным аутсорсинговым обслуживанием. Такой подход поможет добиться лучших результатов, однако потребует дополнительных финансовых вложений.

Автор: старший аналитик Аналитического центра УЦСБ Юлия Сонина.

УЦСБ
Автор: УЦСБ
Компания УЦСБ специализируется на создании, модернизации и обслуживании базовых инфраструктурных элементов предприятий и организаций, включая: информационные и инженерно-технические системы, решения по обеспечению информационной и технической безопасности.
Комментарии: