بیش از حد

  • 2021-01-4

بیش از حد مفهومی در علم داده است ، که زمانی اتفاق می افتد که یک مدل آماری دقیقاً در برابر داده های آموزشی آن قرار می گیرد. وقتی این اتفاق بیفتد ، متأسفانه الگوریتم نمی تواند در برابر داده های غیب انجام شود و هدف خود را شکست دهد. تعمیم یک مدل به داده های جدید در نهایت همان چیزی است که به ما امکان می دهد هر روز از الگوریتم های یادگیری ماشین استفاده کنیم تا پیش بینی ها و طبقه بندی داده ها را انجام دهیم.

هنگامی که الگوریتم های یادگیری ماشین ساخته می شوند ، برای آموزش مدل از یک مجموعه داده نمونه استفاده می کنند. با این حال ، هنگامی که مدل برای داده های نمونه بیش از حد طولانی آموزش می دهد یا وقتی مدل خیلی پیچیده است ، می تواند شروع به یادگیری "نویز" یا اطلاعات بی ربط در درون مجموعه داده ها کند. هنگامی که مدل سر و صدا را به خاطر می آورد و خیلی نزدیک به مجموعه آموزش متناسب است ، مدل "بیش از حد" می شود و قادر به تعمیم داده های جدید نیست. اگر یک مدل نتواند به خوبی به داده های جدید تعمیم دهد ، نمی تواند وظایف طبقه بندی یا پیش بینی را که برای آن در نظر گرفته شده است انجام دهد.

نرخ خطای پایین و واریانس بالا شاخص های خوبی برای استفاده بیش از حد است. به منظور جلوگیری از این نوع رفتار ، بخشی از مجموعه داده های آموزش به طور معمول به عنوان "مجموعه آزمایش" برای بررسی بیش از حد اختصاص داده می شود. اگر داده های آموزشی دارای نرخ خطای پایین باشند و داده های آزمون از خطای بالایی برخوردار باشند ، سیگنال بیش از حد را نشان می دهد.

بیش از حد در مقابل زیرپوش

اگر بیش از حد یا پیچیدگی مدل منجر به افزایش بیش از حد شود ، یک پاسخ پیشگیری منطقی یا مکث در اوایل مکث است ، همچنین به عنوان "توقف زود هنگام" یا کاهش پیچیدگی در مدل با از بین بردن ورودی های کمتر مرتبط شناخته می شود. با این حال ، اگر خیلی زود مکث کنید یا بسیاری از ویژگی های مهم را حذف کنید ، ممکن است با مشکل مخالف روبرو شوید و در عوض ، ممکن است مدل خود را زیر پا بگذارید. زیرپوش زمانی اتفاق می افتد که مدل برای زمان کافی آموزش ندیده باشد یا متغیرهای ورودی به اندازه کافی معنی دار نیستند تا بتوانند رابطه معنی داری بین متغیرهای ورودی و خروجی تعیین کنند.

visual representation of underfit model, an optimal model, and an overfit model

در هر دو سناریو ، مدل نمی تواند روند غالب را در مجموعه داده های آموزش ایجاد کند. در نتیجه ، زیربنایی همچنین داده های ضعیف و غیب را تعمیم می دهد. با این حال ، بر خلاف بیش از حد ، مدل های کم مصرف در پیش بینی های خود ، تعصب بالا و واریانس کمتری را تجربه می کنند. این نشان دهنده تجارت تعصب و واریانس است ، که هنگامی اتفاق می افتد که به عنوان یک مدل کم رنگ به یک حالت بیش از حد منتقل می شود. همانطور که مدل می آموزد ، تعصب آن کاهش می یابد ، اما می تواند واریانس را افزایش دهد و بیش از حد افزایش یابد. هنگام قرار دادن یک مدل ، هدف این است که "نقطه شیرین" را بین زیر فشار و بیش از حد پیدا کنید تا بتواند یک روند غالب را ایجاد کند و آن را به طور گسترده در مجموعه داده های جدید اعمال کند.

Visual representation of classic overfitting

نحوه تشخیص مدل های Overfit

برای درک صحت مدل های یادگیری ماشین ، آزمایش تناسب اندام مدل مهم است. اعتبار سنجی متقاطع K یکی از محبوب ترین تکنیک ها برای ارزیابی صحت مدل است.

در اعتبار سنجی متقاطع K ، داده ها به زیر مجموعه های اندازه به اندازه K تقسیم می شوند ، که به آنها "چین" نیز گفته می شود. یکی از k-folds به عنوان مجموعه آزمایش عمل می کند ، همچنین به عنوان مجموعه نگهدارنده یا مجموعه اعتبار سنجی شناخته می شود و چین های باقیمانده مدل را آموزش می دهند. این فرآیند تکرار می شود تا زمانی که هر یک از این برابر به عنوان یک نگهدارنده عمل کند. پس از هر ارزیابی ، یک نمره حفظ می شود و هنگامی که تمام تکرارها به پایان رسید ، نمرات به طور متوسط برای ارزیابی عملکرد مدل کلی انجام می شود.

به عنوان مثال ، بیایید بگوییم که ما مجموعه داده را به پنج گروه زیر تقسیم کردیم. این روند قابل تجسم است ، مانند این:

Visual representation of k-folds cross validation

چگونه از بیش از حد جلوگیری کنیم

در حالی که استفاده از یک مدل خطی به ما کمک می کند تا از بیش از حد استفاده کنیم ، بسیاری از مشکلات دنیای واقعی موارد غیرخطی هستند. علاوه بر درک چگونگی تشخیص بیش از حد ، مهم است که چگونه از این امر جلوگیری کنیم. در زیر تعدادی تکنیک وجود دارد که می توانید برای جلوگیری از بیش از حد استفاده کنید:

  • توقف زودرس: همانطور که قبلاً نیز اشاره کردیم ، این روش به دنبال مکث آموزش قبل از شروع مدل یادگیری نویز در مدل است. این رویکرد خیلی زود باعث متوقف کردن روند آموزش می شود و منجر به مشکل متضاد زیربنایی می شود. پیدا کردن "نقطه شیرین" بین زیرپوش و بیش از حد هدف نهایی در اینجا است.
  • آموزش با داده های بیشتر: گسترش مجموعه آموزش به منظور شامل داده های بیشتر می تواند با فراهم کردن فرصت های بیشتر برای جدا کردن رابطه غالب بین متغیرهای ورودی و خروجی ، دقت مدل را افزایش دهد. گفته می شود ، این یک روش مؤثرتر است که داده های تمیز و مرتبط به مدل تزریق می شوند. در غیر این صورت ، شما فقط می توانید پیچیدگی بیشتری را به مدل اضافه کنید و باعث بیش از حد آن می شود.
  • افزایش داده ها: در حالی که بهتر است داده های تمیز و مرتبط را به داده های آموزشی خود تزریق کنید ، گاهی اوقات داده های پر سر و صدا اضافه می شوند تا یک مدل پایدارتر شود. با این حال ، این روش باید به طور کم انجام شود.
  • انتخاب ویژگی ها: هنگامی که یک مدل را می سازید ، تعدادی پارامترها یا ویژگی هایی را برای پیش بینی نتیجه مشخص استفاده می کنید ، اما بارها و بارها ، این ویژگی ها می توانند برای دیگران زائد باشند. انتخاب ویژگی فرایند شناسایی مهمترین موارد در داده های آموزش و سپس از بین بردن موارد بی ربط یا زائد است. این معمولاً برای کاهش ابعاد اشتباه است ، اما متفاوت است. با این حال ، هر دو روش به ساده سازی مدل شما برای ایجاد روند غالب در داده ها کمک می کنند.
  • منظم سازی: اگر بیش از حد هنگامی که یک مدل بیش از حد پیچیده باشد اتفاق می افتد ، برای ما منطقی است که تعداد ویژگی ها را کاهش دهیم. اما اگر نمی دانیم در طی مراحل انتخاب ویژگی چه ورودی هایی را از بین ببریم ، چه می کنیم؟اگر نمی دانیم کدام ویژگی ها را از مدل خود حذف کنیم ، روش های تنظیم می توانند به ویژه مفید باشند. منظم سازی "مجازات" را برای پارامترهای ورودی با ضرایب بزرگتر اعمال می کند ، که متعاقباً میزان واریانس مدل را محدود می کند. در حالی که تعدادی از روشهای تنظیم مجدد ، مانند تنظیم مجدد L1 ، تنظیم لاسو و ترک تحصیل وجود دارد ، همه آنها به دنبال شناسایی و کاهش نویز در داده ها هستند.
  • روشهای گروه: روشهای یادگیری گروه از مجموعه ای از طبقه بندی ها تشکیل شده است. درختان تصمیم گیری - و پیش بینی های آنها برای شناسایی محبوب ترین نتیجه جمع شده است. مشهورترین روشهای گروهی در حال افزایش و تقویت است. در کیف کردن ، یک نمونه تصادفی از داده ها در یک مجموعه آموزش با تعویض انتخاب می شود - به این معنی که می توان نقاط داده های فردی را بیش از یک بار انتخاب کرد. پس از تولید چندین نمونه داده ، این مدل ها سپس به طور مستقل آموزش داده می شوند و بسته به نوع کار - یعنی. رگرسیون یا طبقه بندی - میانگین یا اکثریت این پیش بینی ها تخمین دقیق تری دارند. این معمولاً برای کاهش واریانس در یک مجموعه داده پر سر و صدا استفاده می شود.

ببینید که چگونه می توانید برخی از این رویکردها را در این آموزش تشخیص تصویر توسعه دهنده IBM اعمال کنید.

تحقیقات اخیر

در حالی که موارد فوق تعریف تعیین شده از بیش از حد است ، تحقیقات اخیر (PDF ، 1. 2 MB) (پیوند در خارج از IBM است) نشان می دهد که مدل های پیچیده مانند مدل های یادگیری عمیق و شبکه های عصبی ، با وجود اینکه دقیقاً آموزش دیده اند ، با دقت بالایی عمل می کنندمتناسب یا درون یابی. "این یافته به طور مستقیم با ادبیات تاریخی در مورد این موضوع مغایرت دارد و از طریق منحنی خطر "نزول مضاعف" در زیر توضیح داده شده است. می بینید که همانطور که مدل از آستانه درون یابی می آموزد ، عملکرد مدل بهبود می یابد. روش هایی که قبلاً برای جلوگیری از بیش از حد ، مانند توقف زود هنگام و تنظیم مجدد ، در واقع می توانند از درون یابی جلوگیری کنند.

Double Decent Graph

IBM و بیش از حد

IBM Watson Studio یک بستر داده باز است که به دانشمندان داده اجازه می دهد تا مدل های AI را در مقیاس در هر ابر بسازند ، اجرا ، آزمایش و بهینه سازی کنند. IBM Watson Studio شما را قادر می سازد تا AI را در هر نقطه به عنوان بخشی از IBM Cloud Pak® برای داده ها عملیاتی کنید. تیم ها را متحد کنید ، مدیریت چرخه عمر AI را ساده کنید و با یک معماری باز و انعطاف پذیر چند منظوره ، زمان را تسریع کنید.

برای ساختن مدل های یادگیری ماشین با دقت ، برای IBMID ثبت نام کنید و امروز حساب IBM Cloud خود را ایجاد کنید.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.