Американские исследователи создали систему искусственного интеллекта, которая по постам и лайкам пользователей в Facebook определяет, страдают ли они табачной, алкогольной или наркотической зависимостью. Максимальная точность программы достигает 86%.
По статистике, каждый десятый американец от 12 лет и старше страдает от той или иной формы зависимости (substance use disorder, SUD). При этом ученые в последнее время находят взаимосвязь между чертами личности и склонностью к употреблению разных веществ. Так, регулярно курящие табак люди значительно более открыты к опыту, но менее добросовестны, чем некурящие (здесь под добросовестностью подразумевается самодисциплина, исполнение обязанностей и стремление к достижению цели). Употребление алкоголя, в свою очередь, положительно коррелирует с социальностью и экстравертностью.
Так как люди, используя социальные сети, сообщают в интернете много информации о своих интересах и чертах личности, авторы новой работы предположили, что посты и лайки также могут указывать на вредные привычки пользователей. Исследователи применили алгоритм машинного обучения, натренированный с помощью трех баз данных, которые были собраны в период с 2007 по 2012 год приложением для психологических тестов myPersonality. Первая содержала 21 миллион записей 100 тысяч пользователей Facebook; вторая — 5 миллионов лайков 250 тысяч пользователей; в третьей хранилась информация о наличии зависимостей у 13,5 тысячи пользователей. Для обучения эти наборы данных комбинировались различным образом.
После тренировки система научилась распознавать наличие вредных привычек у человека. Вероятность курения табака определяется с максимальной точностью 86%, вероятность употребления наркотиков — 84%, вероятность употребления алкоголя — 81%.
При этом ученые нашли корреляции между содержанием постов, интересами пользователей и разного рода зависимостями. Например, алгоритм вычислил, что любители спиртного и сигарет чаще используют слова, связанные с движением — «машина» или «идти». Слова, имеющие отношение к злости («ненависть», «убивать») и здоровью («клиника», «таблетки»), положительно связаны с употреблением наркотиков. Кроме того, выяснилось, что пьющие алкоголь люди любят фильм «V — значит вендетта», а наркоманы слушают Radiohead, The Cure и Depeche Mode.
Тем не менее стоит отметить, что положительная корреляция в данном случае не указывает на причинно-следственную связь. Более того, пересекающийся набор данных был намного меньше объема каждой из трех баз данных по отдельности — он содержал информацию всего о 3508 пользователях. Чтобы повысить точность результатов, нужен гораздо больший объем информации.