بکه عصبی ، خروجی کنترل کننده بازگشتی می باشد. سودمندی این روش آموزش در این نکته نهفته است که سیگنال هدف یا سیگنال خروجی مطلوب برای شبکه عصبی احتیاج نمی شود. علاوه بر این، سیگنال پس انتشار خطا14 در سیستم کنترل شده یا مدل سیستم کنترل شده نیاز نمی گردد. از آنجائیکه گشتاور بازگشتی به عنوان سیگنال خطای این استراتژی آموزش انتخاب می شود، انتظار می رود که گشتاور بازگشتی با آموزش کاهش یابد. در واقع با تکامل آموزش، خطای بین مسیر پیمایش مطلوب و واقعی به سمت صفر میل کند. استراتژی آموزش به صورت آموزش خطای پسخور طراحی می شود تا اینکه بر اهمیت استفاده از گشتاور بازگشتی به عنوان سیگنال خطا تأکید شود.
ایده آموزش خطای پسخور در کنترل یک بازوی صلب که صفرناپایدار ندارد و همه متغیرهای حالت موجود هستند ، بکار برده می شود ولی در مورد بازوی انعطاف پذیر، دینامیک های صفر مربوط به سیستم، ناپایدار هستند و فیدبک حالت کامل موجود نمی باشد. راه حلی که در اینجا ارائه می شود، تعریف یک خروجی ویژه است تا دینامیک های صفر نظیر خروجی جدید پایدار گردند. این خروجی می تواند به عنوان متغیری از مفصل تعریف شود ولی جواب قابل قبولی برای یک روبات انعطاف پذیر بدست نخواهد آمد. نشان داده می شود که با استفاده از یک خروجی جدید که در این تحقیق بررسی می شود، امکان استفاده از مفهوم آموزش خطای پسخور در کنترل مکان بازوی انعطاف پذیر بوجود می آید.

در روش JBC15 اصلاح شده که در شکل (1-1) نشان داده می شود، یک کنترل کننده مفصل PD و یک کنترل کننده عصبی پسخور بکار برده می شوند. تابع هدف برای آموزش کنترل کننده عصبی طبق رابطه (1-1) در نظر گرفته می شود:
(1-1)
به منظور میرایی و کاهش انحراف ناشی از انعطاف پذیری در انتهای بازو در تابع هدف قرار می گیرد. بهره بیان کننده وزنی است که برای مینیمم کردن ارتعاشات الاستیک قرار داده شده است و توانایی پیمایش خطا متأثر از انتخاب بهره های و می باشد. ، و ورودیهای کنترل کننده عصبی هستند و خروجی شبکه است. قانون تنظیم وزن شبکه عصبی بر اساس (1-2) می باشد:
(1-2)
که بردار وزن شبکه و نرخ آموزش می باشند. در (1-3) آمده است.
(1-3)
که و تابعی غیر خطی است که توسط کنترل کننده عصبی محاسبه می شود. ترم توسط روش پس انتشار محاسبه شود و روابط ، و نیز با استفاده از علامت گرادیان بجای مقدار واقعی آن برای آموزش کنترل کننده عصبی ، محاسبه می شوند.
در روش 16ORTOL اصلاح شده که در شکل (1-2) آورده شده است، همانند ساختار قبلی یک کنترل کنندهمفصل PD به کار می رود. در این ساختار، دو شبکه عصبی استفاده می شود. کنترل کننده شبکه عصبی اول برای تولید یک قانون کنترل آموزش می بیند بگونه ای که خطای پیمایش بین مسیر پیمایش مرجع مطلوب و خروجی بازسازی شده ، ، که بوسیله خروجی شبکه دوم تعیین می شود ، مینیمم گردد. تابع هدفی که برای آموزش شبکه اول استفاده می شود، طبق رابطه (1-1) و قانون تنظیم وزن هم بر اساس رابطه (1-2) می باشد. نیز به همان روش بخش قبل محاسبه می شود.
هدف شبکه عصبی دوم، آموزش تطبیقی برای ساخت یک خروجی بازسازی شده مناسب به فرم (1-4) می باشد.
(1-4)
که ها، محدود بین 1 و -1، وزن های تنظیم شونده شبکه عصبی هستند.
نتایج ارایه شده نشان می دهد که بازوی انعطاف پذیر در زمانی حدود 5 ثانیه به حالت ماندگار می رسد. فراجهش هم صورت نمی گیرد.
در ]14[ نیز از ساختاری مشابه ساختار مطرح شده در بالا برای شبیه سازی کنترل بازوی انعطاف پذیر استفاده شده است. به این ترتیب که فید بک به روش بازتعریف خروجی طراحی شده است و از کنترل کننده شبکه عصبی بر پایه تابع شعاعی در کنار کنترل کننده PD استفاده شده است. تابع هدف و روش آموزش طبق (1-1) و (1-2) می باشد.

1-5-2- کنترل کننده عصبی بر اساس مدل دینامیک معکوس ]3[
درمیان استراتژی های کنترلی متعددی که برای کنترل مسیربازوی صلب ارائه شده است، روش کنترل دینامیک معکوس تاکنون رایج ترین روش غیر خطی بوده است. به هر حال، شاخصه غیر مینیمم فاز بودن بازوی انعطاف پذیر، توانایی این روش را در کنترل مسیر تضعیف می کند، مگر آنکه از روش بازتعریف خروجی17 برای پایدارسازی صفر ناپایدار ناشی از نگاشت ورودی خروجی استفاده شود. مشکلات اصلی در پیاده سازی کنترل دینامیک معکوس، وابستگی شدید آنها به دقت مدل معین استفاده شده در طراحی کنترل کننده، وجود اغتشاش، غیر خطی های مدل نشده و نا معینی ها است. فواید شبکه های عصبی در ایجاد یک راهکار حیاتی برای کاهش وابستگی کنترل کننده به محدودیت های بالا در سیستم ها و کاربردهای بسیاری نشان داده شده است.
در این مرجع، به جای اینکه با مدل دینامیک معکوس به طور کامل به عنوان یک جعبه سیاه برخورد شود، از یک سری اطلاعات قبلی در مورد ساختار مدل دینامیک معکوس در طراحی کنترل کننده عصبی استفاده می شود. با بهره گیری از دو شبکه عصبی که غیر خطی های مدل بازوی انعطاف پذیر توسط آنها جبران سازی می شوند، به همراه یک کنترل کننده خطی رایج، به طورعملی نشان داده شده که کارایی بهتری نسبت به نوع عصبی یا کنترل کلاسیک دارد. این ساختار کنترلی در شکل (1-3) نشان داده شده است. هر دو شبکه عصبی که در شکل (1-3) نشان داده شده اند، دارای ساختار چند لایه پیشخور هستند.
با به کارگیری تکنیک خطی سازی ورودی – خروجی برای مدل غیر خطی پیوسته در زمان که تنها یک مود انعطاف پذیر دارد (N=1) برای بیان کنترل کننده دینامیک معکوس خواهیم داشت:
(1-5)
با فرض اینکه در مورد F(.) و G(.) از پیش اطلاعی نداریم ، در طول فاز یادگیری، شبکه های عصبی از طریق سیگنال خطای آموزش18، برای یادگیری این غیر خطی های سیستم آموزش می یابند، یعنی می توان چنین بیان کرد:
(1-6)
از کنترل کننده خطی V هم برای حفظ پایداری خطای سیستم در طول پروسه یادگیری استفاده می شود. یکی از اهداف اصلی این کنترل کننده پایدار کردن خمش های بازوی انعطاف پذیر می باشد. انتخاب تابع هدف شبکه های عصبی و قانون تنظیم وزن مانند روش قبل است.
در این روش نیز در زمان حدود 5 ثانیه ولی با میزان فراجهش 10% بازوی انعطاف پذیر به حالت ماندگار رسیده است.

1-5-3- کنترل فازی توزیع یافته
در ]6[، به کنترل فازی بازوی انعطاف پذیر و روش انحراف تکین19 می پردازد. از روش انحراف تکین برای تولید زیر سیستم های کند و تند استفاده شده است. کنترل کننده زیر سیستم سریع، نوسانات بازوی انعطاف پذیر را توسط یک روش کنترلی بهینه میرا می کند و کنترل کننده فازی زیر سیستم کند، هم تعقیب مسیر مطلوب را رهبری می کند. برای تضمین پایداری دینامیک داخلی نیز از افزودن اصلاح لایه مرزی20 براساس انحراف تکین استفاده می شود. تحقیق انجام شده، پاسخ خروجی بسیار مطلوبی را نسبت به روش معمول حلقه کنترلی خارجی PD و پایدارساز لایه مرزی، نشان می دهد و مقاوم هم می باشد ]6[.
با این روش بازوی انعطاف پذیر در زمانی حدود 2 ثانیه و با میزان فراجهش 6% به حالت ماندگار می رسد.
در ]10[، برای اینکه نشان دهد، نیازمند طراحی های خاصی از کنترل کننده های فازی هستیم، ابتدا یک روش کنترلی فازی یکپارچه را بررسی می کند که ورودی های آن عبارتند از:
(1-7)
(1-8)