Data is the new oil shit 💩

Наткнулся на потрясающий тред с Reddit. Разработчик выкатил в сторы аппку в категории body-tracking (в духе сервиса Tuute, который на серьезных щах трекает пердеж — да, такое тоже есть). Пользователи должны были фоткать свои, кхм, фекалии. Приложение выдавало им какую-то базовую аналитику, а под капотом складывало всё в базу.

Итог: на руках у чувака датасет из 150 000 размеченных и классифицированных (!) фотографий говна от 25 000 уникальных юзеров.

И теперь он сидит на этой куче (во всех смыслах) и жалуется, что не может найти покупателей на свой датасет.

Тут нужно понимать, что весь Reddit, Github и Википедию уже выпылесосили гиганты. Вы не выиграете конкуренцию на текстах, котиках или опенсорсе. Реальная добавочная стоимость лежит в труднодоступных, грязных и специфических нишах.
Размеченный медицинский датасет на 150k изображений в такой сфере — это золотая жила. Производители умных унитазов (уже делают камеры, анализирующие ваш стул на лету) или фармкомпании, исследующие заболевания кишечника, тратят годы и миллионы долларов на клинические сборы такого объема.

Но чувак собрал золото, но не подумал про способ монетизации.
Крупный бизнес никогда не купит датасет у ноунейма, им нужна юридическая чистота. А продажа биометрических/медицинских данных (даже якобы анонимизированных), собранных через пользовательское соглашение мобильной аппки — это прямой билет в суд.

Единственный рабочий выход для него сейчас — продавать не сам датасет, а компанию целиком. Либо обучить свою CV-модель и продавать B2B-клиентам доступ к API.

Мораль: если делаете какое-то говно, то в первую очередь думайте, как это говно вы будете продавать. ☝️