مرکز ملی امنیت سایبری بریتانیا (NCSC) هشدار تازهای درباره رشد تهدید Prompt Injection منتشر کرده است؛ نوعی آسیبپذیری که بهسرعت به یکی از بزرگترین نگرانیهای امنیتی در سیستمهای هوش مصنوعی مولد تبدیل شده است. این حمله که اولینبار در سال ۲۰۲۲ شناسایی شد، به تلاش مهاجمان برای دستکاری مدلهای زبانی بزرگ (LLM) از طریق تزریق دستورهای مخرب در محتوای ارائهشده توسط کاربر اشاره دارد.
اگرچه این تکنیک در ظاهر شبیه آسیبپذیری قدیمی و شناختهشده SQL Injection است، اما NCSC تأکید میکند که چنین مقایسهای گمراهکننده بوده و حتی ممکن است سازمانها را به سمت استفاده از راهکارهای غلط سوق دهد.
چرا Prompt Injection اساساً متفاوت است؟
SQL Injection تقریباً سه دهه است که شناخته میشود. مشکل اصلی آن یعنی مخلوط شدن داده و دستور، با روشهایی مانند Queryهای پارامتری قابل حل است. این راهکارها کار میکنند چون سیستمهای سنتی مرز مشخصی میان «داده» و «دستور» دارند.
اما NCSC توضیح میدهد که مدلهای زبانی چنین تمایزی ندارند. یک LLM در سطح داخلی میان دستور توسعهدهنده و ورودی کاربر تفاوتی نمیبیند؛ فقط محتملترین توکن بعدی را پیشبینی میکند. این موضوع ایجاد هرگونه مرزبندی امنیتی درون Prompt را بسیار دشوار میکند.
در یک نمونه رایج Prompt Injection غیرمستقیم، ممکن است یک رزومه شامل متن مخفیای باشد که به سیستم استخدامی مبتنی بر هوش مصنوعی دستور میدهد قوانین قبلی را نادیده گرفته و متقاضی را تأیید کند. چون LLM تمام متن را یکسان در نظر میگیرد، میتواند به اشتباه دستور مخرب را اجرا کند.
به همین دلیل است که حملات Prompt Injection در سیستمهای عملیاتی مدام دیده میشوند و در فهرست OWASP به عنوان بزرگترین ریسک در برنامههای هوش مصنوعی مولد رتبهبندی شدهاند.
LLMها به عنوان «نمایندهای ذاتی که قابل سردرگمی است»
بهجای نگاه کردن به Prompt Injection مانند نسخهای از حملههای تزریق کد، NCSC توصیه میکند آن را از منظر «مشکل Confused Deputy» بررسی کنیم؛ جایی که یک سیستم مورد اعتماد فریب داده میشود تا کاری را به نمایندگی از یک عامل غیرقابل اعتماد انجام دهد.
در آسیبپذیریهای سنتی Confused Deputy، امکان وصله کردن مشکل وجود دارد. اما به گفته NCSC، مدلهای زبانی «بهطور ذاتی قابل سردرگمیاند». حتی اگر فیلترها و لایههای تشخیص مختلف اضافه کنید، معماری اصلی همچنان به مهاجمان فرصت دستکاری خروجی را میدهد.
بنابراین هدف «حذف کامل ریسک» نیست، بلکه «کاهش احتمال و تأثیر حملات» است.
گامهای کلیدی برای ساخت سیستمهای امنتر هوش مصنوعی
NCSC چند اصل مهم را — مطابق با استاندارد امنیت سایبری ETSI برای سیستمهای هوش مصنوعی — معرفی میکند:
۱. افزایش آگاهی توسعهدهندگان و سازمانها
Prompt Injection هنوز هم برای بسیاری از مهندسان باتجربه ناشناخته است. تیمهایی که سیستمهای متصل به LLM میسازند باید این مسئله را یک ریسک اجتنابناپذیر بدانند. تیمهای امنیتی نیز باید درک کنند هیچ محصولی نمیتواند بهطور کامل این حملات را مسدود کند؛ مدیریت ریسک باید با طراحی دقیق و کنترلهای عملیاتی همراه باشد.
۲. اولویت دادن به طراحی امن سیستم
از آنجا که LLMها میتوانند مجبور به استفاده از ابزارها یا APIهای خارجی شوند، طراحان باید از ابتدا فرض کنند قابل دستکاری هستند. یک Prompt آلوده میتواند یک دستیار هوش مصنوعی را وادار به انجام اقدامات با سطح دسترسی بالا کند و عملاً ابزار را به مهاجم بدهد.
پژوهشگران ETH Zurich، گوگل و متخصصان مستقل امنیت معماریهایی پیشنهاد دادهاند که میزان قدرت LLM را محدود میکند. یکی از اصول مهم: اگر یک LLM محتوای خارجی را پردازش میکند، سطح دسترسی آن باید به سطح همان منبع خارجی کاهش یابد.
۳. سختتر کردن اجرای حملهها
توسعهدهندگان میتوانند از تکنیکهایی برای جداسازی «داده» و «دستور» استفاده کنند، مثلاً محصور کردن ورودی خارجی داخل تگهای XML. تحقیقات اولیه مایکروسافت نشان داده این روشها سطح حمله را بالا میبرند، اگرچه هیچکدام تضمین کامل ارائه نمیکنند.
NCSC هشدار میدهد که روشهایی مانند بلاک کردن عبارتهایی نظیر «دستورات قبلی را نادیده بگیر» بیفایده است، porque مهاجمان بهراحتی این عبارتها را تغییر میدهند.
۴. پیادهسازی مانیتورینگ قدرتمند
یک سیستم خوب باید ورودیها، خروجیها، تعاملات با ابزارها و APIهای شکستخورده را بهطور کامل ثبت کند. چون مهاجمان تلاشهای خود را تکرار و اصلاح میکنند، نشانههای اولیه مانند شکستهای متعدد در فراخوانی ابزارها ممکن است نخستین علامت یک حمله در حال رشد باشد.
هشداری برای موج استفاده از هوش مصنوعی
NCSC نتیجه میگیرد که تکیه بر راهکارهای شبیه SQL Injection اشتباه بزرگی خواهد بود. SQL Injection سالها پس از پذیرش انبوه اپلیکیشنهای پایگاهدادهمحور به اوج رسید و فقط پس از موجی از نشت داده و نفوذها بود که امنیت به استاندارد تبدیل شد.
با سرعت بالای ورود هوش مصنوعی مولد به جریانهای کاری سازمانی، آژانس هشدار میدهد که یک موج مشابه سوءاستفاده میتواند رخ دهد، مگر اینکه سازمانها طراحی سیستمها را از ابتدا با محوریت ریسک Prompt Injection انجام دهند.

یک نظر