هک کردن P یا P-hacking چیست؟

چند سالی است که متخصصان آمار، برخی روی‌کردهای رایج در تحلیل آماری داده‌ها و گزارش نتایج آن را تحت عنوان p-hacking نقد کرده‌اند. این گزاره که «اگر داده‌ها را به اندازه کافی شکنجه کنی به هر چیزی اعتراف می‌کنند» را اکثرا شنیده‌ایم ولی شاید مبانی آماری/ریاضی آن روشن نباشد. در این‌جا سعی می‌کنیم بدون این‌که خیلی وارد جزییات ریاضی شویم، یک نوع خطای رایج را بحث ‌کنیم.

شعار سال : چند سالی است که متخصصان آمار، برخی روی‌کردهای رایج در تحلیل آماری داده‌ها و گزارش نتایج آن را تحت عنوان p-hacking نقد کرده‌اند. این گزاره که «اگر داده‌ها را به اندازه کافی شکنجه کنی به هر چیزی اعتراف می‌کنند» را اکثرا شنیده‌ایم ولی شاید مبانی آماری/ریاضی آن روشن نباشد. در این‌جا سعی می‌کنیم بدون این‌که خیلی وارد جزییات ریاضی شویم، یک نوع خطای رایج را بحث ‌کنیم.
برای درک دقیق‌تر p-hacking خوب است یک بار مفهوم p-value را مرور کنیم. در آمار و اقتصادسنجی در توضیح مفهوم p-value می‌گوییم: چه درصدی از خطا را می‌پذیریم که که فرض صفر واقعا برقرار باشد ولی ما در نمونه خاصی از داده که داریم این مقدار از آماره را مشاهده کنیم. مثلا وقتی مقدار ۵٪ را برای رد/قبول می‌پذیریم، می‌گوییم که «می‌فهمیم که در ۵٪ اوقات میزان آماره حتی با شرط درستی فرض صفر می‌‌‌تواند از میزان مشاهده شده ما بزرگ‌تر باشد، ولی چون ۵٪ عدد بزرگی نیست، با اطمینان خوبی فرض صفر را رد می‌کنیم.».
روش p-hacking دقیقا روی رسیدن به آن ۵٪ تمرکز می‌کند و آن را به عنوان نتیجه واقعی و علمی گزارش می‌کند. اگر هنوز ماجرا برای‌تان مبهم است به این مثال توجه کنید: فرض کنید ما می‌خواهیم اثر چای سبز روی رشد گیاهان را ببینیم. فرض کنیم می‌دانیم که چای سبز هیچ تاثیری روی رشد ندارد، ولی از هر ۲۰ آزمایش، یکی نشان خواهد داد که چای روی رشد گیاه تاثیر دارد. این یک از بیست، به این معنی نیست که چای روی رشد گیاه اثر خاصی دارد بل‌که صرفا می‌گوید که به خاطر تصادفی بودن شرایط، ما در ۵٪ از نمونه‌ها چنین رابطه‌ - غیرواقعی - را در داده‌ها مشاهده خواهیم کرد.
حال فرض کنید که ما در ۲۰ اتاق مختلف آزمایش رابطه چای و رشد گیاه را روی تعداد زیادی گیاه انجام می‌دهیم. اگر کسی نتیجه همه ۲۰ اتاق را با هم مقایسه کند، فورا می‌فهمد که چای اثری ندارد. ولی اگر محقق پس از دیدن داده‌ها، نتایج ۱۹ اتاق را دور بیندازد و فقط با استفاده از داده‌های یک اتاق، رگرسیونی اجرا کرده و به عنوان نتیجه گزارش کند، خواننده متوجه این حقه نخواهد شد. همه چیز هم درست جلوه خواهد کرد: تعداد زیادی گیاه در گروه آزمایش و گروه کنترل بودند و آماره‌ها هم کاملا درست هستند.
در اقتصاد و علوم اجتماعی این اتفاق چه طور می‌افتد؟ معادل آزمایش‌ در اتاق‌های مختلف برای ما، تصریحSpecification ) های مختلفی است که روی مدل می‌زنیم. مثلا ممکن است برای تخمین عوامل موثر بر درآمد فرد، انواع و اقسام متغیرهای توضیح‌دهنده از سن و تحصیلات و جنس و نژاد و سابقه خانوادگی و محل سکونت و قد و وزن و الخ را در رگرسیون بگذاریم و آن قدر «ترکیبات مختلف متغیرها و توان‌ها و لگاریتم و تعامل آن‌ها» را امتحان کنیم تا به نتیجه قوی برسیم.
چند وقت پیش مقاله‌ای را داوری کردم که فرد برخی روابط اقتصادی را روی ۵۰ ایالت آمریکا تخمین زده و مدعی شده بود که در این ۲-۳ ایالت، چنین رابطه‌ای برقرار است و اسم این ایالت‌ها را به عنوان نتیجه تحلیل گزارش کرده بود. در حالی که اگر با نگاه p-hacking به ماجرا نگاه کنیم، می‌توانیم بگوییم که یک جامعه نمونه (مثلا کشور آمریکا) را اگر به ۵۰ زیرنمونه تصادفی - بدون هیچ تفاوت نظام‌مند - بشکنیم و یک مدل را روی این ۵۰ زیر نمونه تست کنیم، محتمل است که در ۲-۳ مورد از زیرنمونه‌ها نتیجه معنی‌داری در مدل ببینیم. این ۲-۳ مورد معنی‌دار فقط خطای آماری و نمونه‌برداری است و بس.
مثال بسیار رایج دیگر: عمل‌کرد کشورها در مسابقات جهانی ژیمناستیک یا درآمد سرانه یا مرگ و میر نوزادان را بگیریم و «هزاران» متغیر محتمل از آب و هوا تا مصرف شکلات را برای توضیح تفاوت بین کشورها امتحان می‌کنیم. مطمئنا این وسط چند متغیر (گاه عجب و غریب) پیدا خواهد شد که همبستگی بسیار قوی با خروجی مورد نظر داشته باشد، بدون این‌که واقعا رابط خاصی بین این متغیرها باشد.

در روش‌های مختلف آماری، شهود ناشی از نقد p-value با اسامی مختلف تکرار می‌شود. مثلا در یادگیری ماشینی (ML) که الگوریتم تعداد خیلی زیادی متغیر توضیح‌دهنده و ترکیبات مختلف آنان را بررسی می‌کند، شانس زیادی هست که در داخل نمونه آموزش، بلاخره رابطه‌‌ای پیدا شود ولی این رابطه حقیقی نیست و به این خاطر عمل‌کرد ضعیفی در خارج-از-نمونه می‌بینیم.

شعارسال، بااندکی اضافات وتلخیص برگرفته از کانال توسعه اقتصاد