Яндекс опубликовал исходный код YTsaurus. Это платформа для хранения и обработки больших данных, с которой работает большинство сервисов Яндекса.
Платформа подходит для широкого круга задач, от анализа до обучения сложных моделей с миллиардами переменных. Например, Search создает поисковый индекс с помощью YTsaurus, а беспилотные автомобили используют платформу для обработки данных о вождении и улучшения своих алгоритмов. YTsaurus управляет суперкомпьютерами Яндекса и распределяет нагрузку таким образом, чтобы их вычислительная мощность использовалась оптимально.
Максим Бабенконачальник отдела технологий распределенных вычислений:
Яндекс разрабатывает YTsaurus — или YT, как мы его называем внутри компании — с 2010 года. Мы начали создавать собственную экосистему больших данных, потому что ни одно из представленных на рынке решений не отвечало всем нашим требованиям. Сейчас YTsaurus — один из ключевых компонентов внутренней инфраструктуры Яндекса. На платформе работают десятки разработчиков, и ее возможности постоянно расширяются..
YTsaurus — отказоустойчивая и хорошо масштабируемая платформа. В Яндексе он развернут на десятках тысяч серверов и обрабатывает крайние байты данных; с ней работает каждый второй сотрудник компании. YTsaurus можно использовать как классическую систему MapReduce, но он также поддерживает другие популярные методы обработки данных. Например, у него есть интеграция с ClickHouse и Apache Spark. Подробнее о возможностях YTsaurus описано в блоге Яндекса по адресу “Хабер».
Алексей БашкеевРуководитель Яндекс Облака:
YTsaurus наиболее полезен для крупных компаний, которые обрабатывают большие объемы данных на тысячах серверов при постоянно растущей нагрузке.
Исходный код и документация YTsaurus доступны по адресу Гитхаб. Код распространяется под лицензией Apache 2.0. Любой желающий может использовать платформу или модифицировать ее под себя.
Источник: пресс-служба Яндекса.