tableCraft - Инструмент для извлечения данных из файлов Excel, Гугл-таблиц

Analytics Space

Оставить заявку

Что такое tableCraft

Инструмент для извлечения данных из файлов Excel, Гугл-таблиц и загрузки их в базу данных.

Для кого он предназначен

Для инженеров данных, перед которыми стоит задача навести порядок в разрозненных файлах, которые вручную заполняют разные сотрудники.

В любой BI-системе есть коннекторы к Excel. Что с ними не так

Практически любой инструмент, интегрированный с Excel или Гугл-таблицами, накладывает ограничения на этот файл. Обычно данные должны храниться в «плоском» виде, при котором в каждой строке есть вся нужная информация:

Реальные таблицы могут выглядеть так:

Здесь есть заголовки не только в первой строке, «лишние» для коннектора строки и столбцы с итогами, объединенные ячейки. Коннектор здесь либо выдаст ошибку, либо загрузит неверные данные.

Почему нельзя просто привести данные к нормальному виду

Когда файлов много, их упорядочивание потребует много времени и будет сопровождаться ошибками, если делать это вручную. Кроме того, люди, которые заполняют файлы могут быть против — «плоский» вид обычно неудобен для ручного ввода. В первой таблице нужно на каждой строке выбирать, к какому региону относится город, и к какой категории относится каждый товар, а во второй — эта информация «вшита» в заголовок.
Еще один пример таблицы, которая удобна для заполнения, но ее невозможно считать стандартным коннектором — диаграмма Ганта:

Переводить такие таблицы в плоский вид — значит потерять в наглядности и скорости заполнения. Поэтому нужен инструмент, который позволит забирать данные, не меняя структуру таблицы.

Как работает tableCraft

Вначале пользователь заводит нужные файлы в систему: указывает папку, в которой лежат файлы Excel, Гугл-таблицы и доступы к ней. Прописывает правило, по которому система найдет нужные имена файлов и листов внутри документа. После этого нужно составить правила интерпретации ячеек.

Эти правила пишутся на специальном языке CRL. Язык можно полностью выучить за час, зато потом сэкономить много часов на преобразованиях таблиц. Правила интерпретации ячеек описывают три вещи:

как найти границы таблицы с нужными данными на листе;
как определить класс, к которому относится ячейка. Она может содержать заголовок (в примере выше — слово «Акция»), метку («Январь», «Февраль», дни месяца и названия акций) и непосредственно данные (числа);
соответствие между данными и метками (к какой акции и дате относится каждая ячейка с данными), между метками и категориями («Татьянин день» — это акция, 25 — это «Число», «Январь» — это месяц). Категории и метки можно брать из ячеек, либо задавать прямо в правиле.

После этого пользователь может настроить расписание, по которому tableCraft будет обращаться к папке, искать нужные файлы, извлекать оттуда данные в соответствии с правилами и складывать их в базу или хранилище на S3. Они будут отображаться в таком виде:

Почему использовать tableCraft быстрее, чем сделать вручную

Если нужно загрузить данные один раз из одного файла — может быть, быстрее и вручную. Но когда пользователи регулярно обновляют данные в файле, или когда нужно обработать сразу несколько файлов, листов по одному шаблону, то выгоднее один раз потратить время на написание правил и автоматизировать процесс сбора данных.

Откуда tableCraft может брать данные

FTP
NFS
Samba (общая папка в Windows)
Google Drive
Яндекс.Диск
Файлы, доступные для скачивания через HTTP/

Лицензии tableCraft

Под open source лицензией доступен TabbyXL — инструмент, с помощью которого вы можете разово обработать отдельные таблицы через командную строку.

Веб-приложение, которое позволяет делать регулярную загрузку данных из сетевых папок, доступно по коммерческой лицензии. tableCraft входит в состав системы сквозной аналитики dataCraft (ссылка) — мы используем его, например, для загрузки медиапланов.

Если у вас задача только построить хранилище данных на основе файлов Excel и Гугл-таблиц, вы можете купить tableCraft отдельно. Мы поможем его установить и обучим команду работе с ним.

qualityCraft доступен под коммерческой лицензией. После продажи мы проводим настройку инструмента и обучение команды по работе с ним.

Получить доступ к tableCraft

О проекте

Analytic Space

+7 495 99 88 661

Лицензия

Политика конфиденциальности

Analyticspace@adventum.ru