شکست چت بات های هوش مصنوعی در تشخیص بیماران
مدل های پیشرفته هوش مصنوعی که در آزمون های پزشکی نتایج خوبی کسب می کنند هنوز در یکی از مهم ترین وظایف پزشکان یعنی گفت و گو با بیماران برای جمع آوری اطلاعات پزشکی مرتبط و ارائه تشخیص دقیق ناکام می مانند.
به گزارش نیو ساینتیس پراناو راجپورکار پژوهشگر دانشگاه هاروارد در این خصوص گفت: در حالی که مدل های زبان بزرگ نتایج چشمگیری در آزمون های چند گزینه ای دارند دقت آنها در مکالمات پویا به طور قابل توجهی کاهش می یابد. این مدل ها به ویژه در استدلال تشخیصی باز با مشکلات زیادی مواجه هستند.
این امر زمانی نمایان شد که محققان روشی برای ارزیابی قابلیت های استدلال مدل های هوش مصنوعی در محیط های شبیه سازی شده پزشک بیمار توسعه دادند. بیماران در این مطالعات از ۲۰۰۰ پرونده پزشکی که عمدتاً از آزمون های پزشکی هیئت مدیره آمریکا استخراج شده بودند الهام گرفته شده بودند.
شریا جوهری پژوهشگر دیگر دانشگاه هاروارد اظهار داشت: شبیه سازی تعاملات بیمار به ارزیابی مهارت های جمع آوری تاریخچه پزشکی کمک می کند که جزو اجزای حیاتی عمل بالینی است و نمی توان آن را با استفاده از داستان های کوتاه پزشکی ارزیابی کرد.
مدل GPT-۴ اپن ای آی نقش بیمار هوش مصنوعی را در مکالمه با هوش مصنوعی بالینی که در حال آزمایش بود ایفا کرد. این مدل همچنین به ارزیابی نتایج کمک کرد و تشخیص هوش مصنوعی بالینی را با پاسخ صحیح هر پرونده مقایسه کرد. کارشناسان پزشکی انسانی این ارزیابی ها را دوباره بررسی کردند تا دقت بیماران هوش مصنوعی را تایید کرده و ببینند که آیا هوش مصنوعی بالینی توانسته اطلاعات پزشکی مربوطه را جمع آوری کند یا خیر.
نتایج آزمایش های متعدد نشان داد که چهار مدل پیشرفته زبان بزرگ مدل های GPT-۳.۵ و GPT-۴ اپن ای آی مدل Llama-۲-۷b متا و مدل Mistral-v۲-۷b میستال ای آی در مقایسه با تشخیص هایی که بر اساس خلاصه های مکتوب پرونده ها انجام می شد عملکرد به مراتب ضعیف تری در معیار مبتنی بر مکالمات داشتند.
این مدل ها همچنین در جمع آوری تاریخچه پزشکی کامل بیماران درصد بالایی از زمان ها شکست خوردند. برای مثال مدل پیشرفته GPT-۴ تنها در ۷۱ درصد از مکالمات شبیه سازی شده بیماران توانست تاریخچه پزشکی مربوطه را جمع آوری کند. حتی زمانی که مدل ها تاریخچه پزشکی بیمار را جمع آوری کردند همیشه تشخیص های صحیحی ارائه ندادند.
انتهای پیام/