Стартовала реализация первого на российском рынке проекта по использованию нейросетей для формирования квалифицированных описаний отелей, исправления справочников географии и извлечения знаний об отелях из текстов, созданных самими отдыхающими. Об этом начинании, которое обещает стать революционным в отрасли, мы поговорили с Евгением Бибилюровым, директором департамента IT туроператора UTS Group.
- Известно, что любая эффективная инновация исходит из реальной бизнес-проблемы. Как можно описать ту проблему, которую вы пытаетесь решить с помощью нейросетей?
– Не секрет, что участники рынка business travel часто сталкиваются с проблемой несоответствия данных по отелям от каждого из поставщиков. И если счет по поставщикам может идти на десятки или даже сотни, то количество отелей в десятки тысяч раз больше. Судите сами: сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.
Сейчас в базе Hotelbook – около 2 млн неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.
Информация об отелях меняется постоянно и ее надо отслеживать: меняются описания, звездность, названия, геолокационные данные, цены. Были случаи, когда отели в нашей базе внезапно меняли даже свой реальный адрес.
При этом все эти изменения зависят от множества источников и факторов – и информацию об одном и том же отеле, которая имеется в базах данных наших поставщиков, необходимо сопоставлять («матчить»), проассоциировать между собой и привести к единому актуальному формату. Это довольно сложно.
Так, многие отели сами загружают свой контент через личные кабинеты в системе поставщика, разные поставщики имеют разный формат отображения этой информации. Время и периоды обновления баз данных у различных поставщиков также различаются, протоколы, по которым Hotelbook синхронизируется с ними, также могут быть самыми разными – от интеграции по API вплоть до выгрузки всего контента с сервера.
– Но ведь вся эта проблематика известна давно. Как с этим справлялись до этого?
- Изначально, на первом этапе развития системы Hotelbook мы решали задачу сопоставления повторяющейся информации об отелях вручную: это успешно делали 1-2 сотрудника. Затем, по мере расширения пула поставщиков и резкого увеличения объема информации, задача поддержания качества данных резко усложнилась.
Тогда мы внедрили разработанное собственными силами программное решение, которое по определенному алгоритму сопоставляло информацию об объектах в полуавтоматическом режиме. И все равно самые рисковые позиции, где наш «робот» не мог определить близкую к 100% вероятность совпадения, оставались на ручной обработке – это где-то 60% позиций.
С ростом количества поставщиков и размерности нашей базы отелей, затраты на совершенствование «робота» и привлечение дополнительных сотрудников к ручному сопоставлению становились все выше – и достигли существенной суммы.
В 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год. Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.
С этим надо было что-то делать – учитывая, что в 2017 году Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год. Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тысяч новых отелей в базах.
- Как вы пришли к идее использовать для этого инструментарий, связанный с нейросетями и почему?
- На одной из конференций в ходе обсуждения с коллегами мы пришли к выводу о необходимости попробовать применить классическую нейросетевую модель к процессу матчинга отелей в нашей базе данных. Попробовав несколько фреймворков, мы поняли, что использование этой модели будет у нас эффективным.
Нейросети было на чем обучаться: фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).
Фактически, мы уже располагали путем от «хаоса» к «идеальному» состоянию отелей в базе – причем, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).
Осознав свой задел, мы привлекли к разработке численной модели российских математиков, у которых был опыт в этой области, специалистов по Machine Learning и нейросетям.
Для обеспечения потребностей разработчиков мы арендовали дата-центр с серверами принципиально новой для нас комплектации, которая также используется для рендеринга видео. Сейчас мы думаем над приобретением собственного оборудования этого класса.
– Насколько быстро был создан рабочий вариант решения? Что делает сейчас нейросеть с отельной базой?
– После консультаций со специалистами мы решили использовать для программирования Python и прочие специализированные фреймворки. База данных – PostgreSQL.
Сейчас мы находимся на этапе подготовки к первому «прогону» по необработанным массивам. В настоящий момент команда специалистов UTS сопоставляет предложенные варианты каждого из поставщиков, и получив разностный контент, мы выберем самое лучшее и стандартизируем к одному виду.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации (приводя все описания к единому стандарту). Описание отелей будет стандартизировано не только в части текста, но и в части графики (планируем использовать внешний сервис, который классифицирует фотографии отелей и номеров на хорошие и плохие), и в части исправления у объектов геолокационных координат для верного размещения на картах.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации, графики и в части исправления у объектов геолокационных координат для верного размещения на картах.
Кроме этого, нейросеть также будет извлекать и новые знания из текстовых описаний, созданных самими отдыхающими. То есть нами в том числе будет реализован поисковый механизм для сбора и накопления наилучшего описательного контента из авторитетных и проверенных источников с последующей стандартизацией и постоянной поддержкой в актуальном состоянии.
В итоге, ручной труд останется только для того, чего нейросеть «не поймет» – это не более 1% контента.
- А типы номеров в отелях будут приводиться к единому стандарту?
- Вы уже забегаете вперед: это уже второй запланированный этап нашего проекта. Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования так называемых паспортов отелей.
Запуск уже «обученной» нейросети в полномасштабную эксплуатацию мы планируем на сентябрь-октябрь 2018 года. Вторая волна – это как раз работа с базой номеров – будет закончена, по нашим расчетам, к февралю-марту 19 года.
Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования их паспортов. Запуск уже «обученной» нейросети в полномасштабную эксплуатацию - сентябрь-октябрь 2018 г.
Дело в том, что номера как сущности не могут «висеть в пустоте». Для того, чтобы привести все описания номеров к нашему единому стандарту, нам нужно, чтобы они были привязаны к конкретному отелю.
Поэтому – все по порядку: сначала нейросеть «приведет в порядок» весь корпус сведений об объектах размещения, включая географические данные, затем – массив информации по номерам (описательная часть, названия, фотографии). Это тоже очень важно – сейчас структурированной группировки номеров у нас нет, у разных поставщиков могут быть разные описания и названия одного и того же номера в одном и том же отеле.
- Есть ли уже какие-то подсчеты, каков по объему будет экономический эффект от реализованного проекта для UTS Group?
- По предварительным подсчетам, после запуска и внедрения этой системы, экономия бюджета будет составлять минимум 7-8 млн. рублей в год – даже с учетом издержек. Мы минимизируем риск незаселения человека в другой отель или номер, полностью исключим ручной труд при обработке контента и тем самым оптимизируем свои издержки, в том числе временные (в частности, работа по добавлению поставщика будет занимать не более 2 минут).
По предварительным подсчетам, после запуска и внедрения этой системы, экономия бюджета будет составлять минимум 7-8 млн. рублей в год – даже с учетом издержек.
Второй эффект – репутационный. Для нас важно также и то, что каждому нашему клиенту будет доступен более качественный контент – и текстовый, и графический, и с точки зрения возможности выбора лучшей цены на объекты. Соответственно, нашим партнерам будет проще при интеграции с нами выстраивать свои модели динамического ценообразования, управлять маржой и т.п.
Наконец, при подключении разных поставщиков, нашему партнеру не придется проходить тот же самый путь, который проходили мы. Ну и, наконец, решение, как мы думаем, не только окупит себя, но и принесет прибыль в будущем.
- Каким образом?
- Мы не без основания рассчитываем, что разработанный нами IT-инструмент не останется внутри компании, а, скажем так, «пойдет в народ»: в этом мы видим залог его монетизации в будущем. Рабочая модель, как мы полагаем, пригодится и другим игрокам business travel, и компаниям из смежных областей.
Располагая готовым решением и своими вычислительными мощностями, мы можем предлагать им использовать его в самых различных вариантах.
- Все это крайне интересно. Вы становитесь IT-компанией с туроператорской лицензией. Можно ли анонсировать еще какие-либо планы UTS по развитию новых технологий для бизнеса?
- Сейчас в компании мы прорабатываем идею использования технологии blockchain для создания единой бонусной программы для партнеров. Идея состоит в том, чтобы создать собственную криптовалютную систему для бизнеса, которая бы объединила UTS-рубли и «пряники» Hotelbook.
Сейчас в компании мы прорабатываем идею использования технологии blockchain для создания единой бонусной программы для партнеров.
Пока что существующие на рынке решения «сыроваты», поэтому сейчас мы проводим экспертизу для создания своей собственной разработки. Нам уже удалось выяснить возможные уязвимости и «узкие места» подобного класса решений, ясен порядок инвестиций, необходимые мощности. В настоящий момент мы закладываем архитектуру этого решения, и думаю, вскоре мы с вами поговорим о нем более подробно.
От редакции: напомним, что IT-технологии в туризме не стоят на месте: АТОР и Фонд "Сколково" приглашает всех профессионалов к участию в первом всероссийском конкурсе IT-решений для турбизнеса.
Победителям предоставится возможность стать резидентом "Сколково" по упрощенной процедуре и претендовать на мини-грант до 5 млн рублей. Заявки принимаются до 6 августа 2018 года. Подробности - здесь.
Еще больше интересных материалов от АТОР - в нашем канале на Яндекс.Дзен.
Получать новости "Вестника АТОР" также можно, подписавшись на нашу страничку в Facebook
Бесплатные онлайн-курсы, вебинары АТОР и электронные каталоги туроператоров вы найдете на портале "Академия АТОР"
.