Когда мы говорим, что нейросети "понимают текст", легко забыть одну важную вещь: компьютер изначально вообще не умеет понимать слова.

Текст становится математикой: как машина научилась читать задолго до нейросетей

Компьютер не понимает слов - он понимает числа. Этот простой факт десятилетиями определял, как строились поисковые системы, фильтры спама и рекомендательные алгоритмы. Два метода - Bag of Words и TF-IDF - решили задачу перевода языка в математику раньше, чем кто-либо заговорил о нейросетях, и продолжают работать до сих пор.

Мешок без порядка: как текст превращается в вектор

Bag of Words появился ещё в 1950-х и устроен радикально просто: берём текст, высыпаем все слова в условный мешок и считаем, сколько раз встретилось каждое. Порядок слов при этом полностью теряется. «Кот ест рыбу» и «Рыбу ест кот» для этого метода - абсолютно одинаковые документы.

Каждый уникальный термин во всей коллекции документов получает свой индекс в словаре. Документ представляется числовым вектором: каждая позиция - слово из словаря, каждое значение - количество его вхождений. Три документа о котах, рыбе и собаках превращаются в три вектора в многомерном пространстве, с которыми уже можно работать математически: сравнивать, кластеризовать, обучать классификаторы.

Проблема частот и ответ на неё: TF-IDF

У Bag of Words есть принципиальный изъян: метод считает все слова равнозначными. Союз «и» встречается в каждом предложении и получает высокий вес наравне с редким специализированным термином. Смысловой ценности в этом ноль. Именно для решения этой проблемы в начале 1970-х Карен Спэрк Джонс предложила концепцию IDF, которую затем развил Жерар Салтон в рамках своей модели векторного пространства.

TF-IDF строится на двух множителях. TF - частота слова внутри конкретного документа: чем чаще слово встречается здесь, тем выше его локальный вес. IDF - обратная документная частота: чем в большем числе документов коллекции встречается слово, тем ниже его итоговый вклад. Финальный вес - произведение этих двух значений. Слово «SMTP», редкое в общем корпусе, получит высокий вес в техническом руководстве. Слово «как» - почти нулевой везде.

Косинусное сходство и реальное применение

Документы, представленные через TF-IDF, сравниваются не по расстоянию между точками, а по углу между векторами - с помощью косинусного сходства. Это решает проблему разной длины текстов: короткая аннотация и длинная статья могут оказаться семантически близкими, если их тематическая структура совпадает.

На этих принципах долгие годы работали Elasticsearch и Lucene, корпоративные поисковики и системы рекомендации документов. Они применяются и сегодня - в FAQ-системах, helpdesk-платформах, классификации текстов - там, где нужна интерпретируемость результата и скорость вычислений. Главный предел обоих методов известен: они не учитывают порядок слов, не понимают контекст и не улавливают значение. Но именно с них начинается любое честное объяснение того, как вообще текст становится математикой.

Мешок без порядка: как текст превращается в вектор

Проблема частот и ответ на неё: TF-IDF

Косинусное сходство и реальное применение

Другие статьи

Разбираемся с терруар Кубани: от А до Я

Бисквит на кефире: подробная инструкция и важные нюансы

Начинки для лаваша: самые вкусные по отзывам – откройте для себя идеальные рецепты рулетов из лаваша с крабовыми палочками, сыром и рыбой