Аналіз трендів Ютуб за 2018 рік
В співтоваристві користувачів відеосервісу YouTube часто виникають суперечки щодо великої кількості відеороликів з «накрученими» показниками переглядів. Для того щоб припинити ці суперечки в 2018 році була створена утиліта, призначена для збору інформації про відеозаписах, які опинилися в трендах Ютуба.
Ця утиліта запитує назва відеоролика, дату його створення і список тегів. Крім того, вона веде історію змін кількості переглядів, а також лайків і дизлайків. Завантажити цю утиліту може будь-який бажаючий. Вона знаходиться у вільному доступі на GitHub.
За допомогою цієї утиліти можна створювати досить-таки красиві графіки:
Ця утиліта також надає можливість побудови графіків зміни трендів за ключовими словами. Протягом минулого року за допомогою цієї невеликої програмки було проаналізовано близько 30 тисяч відеозаписів, які опинилися в трендах на Ютуб.
Принцип роботи
Аналіз трендів Ютуб працює за таким принципом: кожні 5 хвилин утиліта бере актуальний список трендів і зберігає інформацію про всіх трендових відеозаписах (назва, дата створення, теги). На підставі цієї інформації кожного відеоролика присвоюється хмара «ключів».
Далі за розкладом утиліта запитує по кожному відео статистику лайків і дизлайків на Ютубі. Статистика збирається протягом 2-х днів. На першому етапі аналізу запити йдуть з інтервалом у дві хвилини. Після цього інтервал поступово збільшується. Алгоритми цієї утиліти налаштовані так, що в разі виникнення підозр на накрутку, інтервал подачі запитів знову зменшується до двох хвилин.
Якщо статистика “лайків” на YouTube на певному етапі аналізу припиняє істотно змінюватися, утиліта збереже тільки перше і не останнє значення на даній ділянці. Така особливість роботи цієї програми зумовлена бажанням її розробника зменшити обсяги бази даних.
Як визначити накрутку на YouTube
Користувачі цієї утиліти напевно поставлять питання – як визначити накрутку переглядів на Ютубі? Це робиться шляхом оцінки відеозаписів, в яких лайки і дизлайки змінюються за принципом «драбинки». Для визначення сходинок драбинки використовується 3 сусідніх виміру статистики. При цьому необхідно враховувати кут між двома прямими і відзначити графіки, мають безліч дрібних нерівностей.
Нижче наведено приклад графіка, який потрапив під підозру алгоритму утиліти:
Враховуючи, що утиліта знаходиться на етапі тестування, алгоритм її роботи продовжує коригуватися. Тому до подібних результатів для кожної окремої відеозапису не слід ставитися надто серйозно.
Один-єдиний (або навіть декілька) графік статистики лайків в Ютуб не дозволяє зі 100% точністю стверджувати про наявність накрутки. Будь-які підозрілі графіки можна пояснити, наприклад, роботою CQRS. Виходячи з цього, загальну картину можна скласти тільки на підставі даних з усіх трендових відеозаписів.
Статистика по накруткам Ютуба
За підсумками 2018 року з 30 тисяч проаналізованих відеороликів під підозру на накрутку лайків потрапило лише 180 записів. При цьому в накрутці дизлайків підозрюється більше тисячі відеозаписів.
Аналіз трендів на YouTube демонструє мінімальну кількість підозрілих графіків лайків. Але якщо подивитися на статистику по місяцях відкривається трохи інша картина. Так, у січні 2018 року було зареєстровано 96 підозрілих відеозаписів. Це більше половини від загальної кількості за рік! При цьому в наступному місяці під підозру потрапило всього 8 відеороликів.
Заглиблюючись в аналіз, варто згадати подію, що сталася 10 січня минулого року. В той день Ютуб заблокував величезна кількість каналів. Утиліта для аналізу трендів YouTube встигла зібрати дані з деяких каналів. Ось графік по одній з віддалених відеозаписів:
«Сходинки» на цьому графіку свідчать про те, що YouTube все-таки бореться з накрутками. Тому сьогодні в тренди відеосервісу кількість накручених відеороликів суттєво зменшилася (хоча вони як і раніше зустрічаються).
Якщо говорити про суттєву різницю між кількістю відео з накрученими лайками і дизлайками, то такий перепад можна легко пояснити. Якщо відео вже потрапило в тренди Ютуба, його власнику немає сенсу накручувати лайки.
Аналіз трендів на YouTube відео дозволяє отримати досить-таки цікаву статистику. Так, відеозапису, які опинилися в трендах, у середньому набирають близько 21 тисячі лайків і трохи менше 3 тисяч дизлайків. Статистика відео, яке підозрюється в накрутці лайків – 15502/4250. Статистика відеозаписів, які підозрюються в накрутці дизлайків – 16868/22087.
Статистика лайків відео на YouTube говорить про те, що накрутка лайків не дає ніякої практичної користі. А ось накрутка дизалайков може бути цілком ефективною.
Як працює алгоритм виміру популярності з «ключів»
Як було сказано вище, кожна трендова запис, проаналізована даною утилітою, має власне хмара «ключів». Завдяки цьому існує можливість складання графіка зміни популярності по кожному з «ключів».
Для розуміння роботи цього алгоритму варто навести практичний приклад. В трендах є тільки 2 відеозапису, які відповідають певному «ключу». Одна запис протрималася в трендах протягом 5 годин, друга – 10 годин. Таким чином, популярність даного «ключа» дорівнює 15 (5+10).
Приклади графіків популярності з «ключів»
Використовуючи алгоритм, описаний вище, стає зрозуміло, що в 2018 році в Рунеті найбільший резонанс викликали не вибори президента і навіть не чемпіонат світу з футболу. Найбільш помітна подія минулого року – це трагедія в Кемерово:
Відео, що стосуються цієї трагедії, витіснили з трендів усі інші відеозаписи. Про футбол і політику цього сказати не можна.
Як подивитися статистику лайків в Ютубі
Подивитися доступні графіки і тренди можна на цьому сайті. Сьогодні система функціонує на основі Amazon Cloud Drive. Для її роботи використовується:
- веб-сервер t2.micro;
- MySQL-сервер t3.small.
Варто додати, що у разі перевантаження існує ймовірність падіння веб-сервера. При цьому сервер бази даних продовжить збір статистики дизлайків в Ютубі.
Актуальну базу даних трендових відеозаписів можна завантажити за цим посиланням.
Посилання на оригінал: https://habr.com/ru/post/436750/