Качество данных. Как его понимать? Чем его изменять?
Описание
Эти вопросы возникают каждый раз, когда речь идет от тестировании данных. Яркий пример – обработка данных о перемещениях транспорта и движении грузов в логистике. Они поступают из разных источников: транспондеров, топливных карт, датчиков автомобилей, складских систем. Второй типичный пример – каталоги библиотек, содержащих различные носители информации. Здесь информация о состоянии и местоположении носителей должна быть максимально детализированной и всегда актуальной.
Весьма вероятно, что существенная часть собираемых данных может быть некорректной, неполной или содержать дублирующую информацию. Поэтому данные нужно как минимум проверять на корректность формата, полноту и достоверность. Их дальнейшее использование в аналитике без проверки сильно повышает риски принятия неверных и опасных для бизнеса решений. Пора разобраться с подходами для определения качества данных и инструментами для их автоматического тестирования!
Ссылки на интсрументы в видео:
AWS Deequ
https://aws.amazon.com/blogs/big-data/test-data-quality-at-scale-with-deequ/
https://github.com/awslabs/deequ
Apach Griffin
https://griffin.apache.org/
https://github.com/apache/griffin
Great Expectation
https://greatexpectations.io/
https://github.com/great-expectations/great_expectations
Contacts:
https://www.facebook.com/spbqacommunity/
https://www.instagram.com/spbqacommunity/
https://www.facebook.com/qualityarchitect/
Рекомендуемые видео



















