گامی رو به جلو برای زبان فارسی : پروژه متن‌باز Rakhshai Graph based NLP موفق به دریافت تأییدیه دانش‌بنیان شد؛ آریا هامان مهر پارسه به جمع شرکت‌های دانش‌بنیان پیوست . • نشریه هوش مصنوعی ایرانی و رویداد های آن

شرکت آریا هامان مهر پارسه اعلام می کند محصول «کتابخانه ارائه خدمات NLP مبتنی بر گراف برای زبان فارسی (Rakhshai-Graph-based-NLP)» موفق به دریافت تأییدیه دانش‌بنیان شده و این شرکت به جمع شرکت‌های دانش‌بنیان کشور پیوسته است.

پروژه متن‌باز Rakhshai Graph-based NLP، متعلق به شرکت آریا هامان مهر پارسه، به‌عنوان یک محصول دانش‌بنیان، نخستین معماری‌های بومی و متن‌باز برای پردازش، مدل‌سازی و تولید زبان فارسی است که مسیر کاملی از پیش‌پردازش، ساختاردهی و تحلیل متن تا یادگیری عمیق و تولید برای زبان فارسی را در یک چارچوب مستقل و یکپارچه ارائه می‌دهد.

شرکت آریا هامان مهر پارسه با تکیه بر معماری‌ها و روش‌های گراف‌محور، متن فارسی را از حالت صرفاً خطی و توالی‌محور خارج کرده و به ساختاری رابطه‌مند تبدیل می‌کند؛ ساختاری که می‌تواند برای تحلیل متن، طبقه‌بندی، خلاصه‌سازی، توصیه‌گر محتوا و توسعه مدل‌های هوش مصنوعی فارسی به‌کار رود. معماری‌ها و روش‌های گراف‌محور، از رویکردهای مدرن در هوش مصنوعی و پردازش زبان طبیعی هستند.

Rakhshai-Graph-based-NLP به زبان ساده چه کاری انجام می‌دهد؟

برای درک ساده‌تر Rakhshai-Graph-based-NLP، می‌توان متن فارسی را مثل یک شهر تصور کرد. در یک شهر، خانه‌ها، خیابان‌ها، میدان‌ها و مسیرهای ارتباطی وجود دارند. اگر فقط خانه‌ها را جداگانه ببینیم، تصویر کاملی از شهر نداریم؛ اما وقتی مسیرها و ارتباط میان آن‌ها را هم ببینیم، می‌توانیم بفهمیم هر بخش چه نقشی دارد و چگونه به بخش‌های دیگر وصل می‌شود.

در پردازش متن هم همین اتفاق می‌افتد. بسیاری از سامانه‌های هوش مصنوعی، متن را فقط به‌صورت یک ردیف از کلمات پشت سر هم می‌بینند. اما Rakhshai-Graph-based-NLP تلاش می‌کند علاوه بر خود کلمات، رابطه میان آن‌ها را هم در نظر بگیرد؛ مثلاً اینکه کدام واژه‌ها به هم نزدیک‌ترند، کدام جمله‌ها با هم ارتباط معنایی دارند، کدام اسناد به یک موضوع مشترک اشاره می‌کنند و چه مفاهیمی در متن به هم وصل شده‌اند.

به زبان ساده، Rakhshai-Graph-based-NLP متن فارسی را از حالت یک نوشته ساده به یک نقشه ارتباطی تبدیل می‌کند. این نقشه به مدل‌های هوش مصنوعی کمک می‌کند متن را بهتر تحلیل کنند، موضوع آن را تشخیص دهند، آن را دسته‌بندی کنند، خلاصه بسازند، محتوای مرتبط پیشنهاد دهند یا حتی در مسیر تولید متن فارسی از روابط پنهان میان واژه‌ها و مفاهیم استفاده کنند.

اهمیت این موضوع برای زبان فارسی بیشتر است، چون فارسی ویژگی‌های خاصی مانند نیم‌فاصله، افعال مرکب، تفاوت شکل نوشتاری برخی حروف، و رابطه‌های معنایی پیچیده دارد. Rakhshai-Graph-based-NLP با تمرکز بر همین ویژگی‌ها طراحی شده تا پردازش زبان فارسی فقط وابسته به ابزارهای عمومی نباشد و یک مسیر بومی، قابل توسعه و شفاف برای هوش مصنوعی فارسی فراهم شود.

بنابراین، دانش‌بنیان شدن Rakhshai-Graph-based-NLP فقط به معنای دریافت یک تأییدیه اداری نیست؛ بلکه نشان می‌دهد یک محصول فناورانه ایرانی در حال ساخت زیرساختی برای فهم بهتر، تحلیل دقیق‌تر و توسعه پیشرفته‌تر زبان فارسی در حوزه هوش مصنوعی است.

معماری بومی متناسب با ویژگی‌های زبان فارسی

برخلاف بسیاری از مدل‌های فارسی موجود که عمدتاً بر پایه معماری‌های عمومی و ازپیش‌تعریف‌شده توسعه یافته‌اند، پروژه متن‌باز Rakhshai Graph-based NLP با تمرکز بر ویژگی‌های زبان فارسی طراحی شده است. در این معماری، متن فارسی تنها به‌صورت دنباله‌ای از توکن‌ها دیده نمی‌شود؛ بلکه روابط میان واژه‌ها، جمله‌ها، اسناد و مفاهیم نیز استخراج، ساختاردهی و در فرایند یادگیری استفاده می‌شود.

این معماری به ویژگی‌هایی مانند نیم‌فاصله، تفاوت نویسه‌های عربی و فارسی، ساختارهای واژگانی، افعال مرکب و روابط معنایی میان واژه‌ها توجه دارد و از ابتدا برای پردازش زبان فارسی طراحی شده است.

مسیر اختصاصی Persian Graph-LM

یکی از مزیت‌های کلیدی این پروژه، مسیر اختصاصی Persian Graph-LM است؛ مسیری که توکن‌سازی فارسی، استخراج روابط زبانی، رمزگذاری ساختاری، ترکیب گراف و متن، و مدل زبانی علّی را برای پیش‌بینی توکن بعدی و تولید متن فارسی در یک مسیر واحد کنار هم قرار می‌دهد. در این مسیر، مدل به‌جای تکیه صرف بر توالی واژه‌ها، می‌تواند از روابط ساختاری میان واژه‌ها، اسناد و مفاهیم نیز استفاده کند.

ترکیب هوشمند متن، گراف و حافظه ساختاری

در این کتابخانه ، ترکیب متن و ساختار به‌صورت ثابت و دستی انجام نمی‌شود؛ مدل می‌آموزد در سطح توکن، جمله و زیرساختار، چه مقدار از اطلاعات متنی و چه مقدار از روابط زبانی استفاده کند. همچنین قابلیت Graph Memory در زمان تولید متن به مدل کمک می‌کند بخش‌های مرتبط با prompt را از حافظه ساختاری بازیابی کند تا تولید متن بر پایه زمینه ارتباطی مرتبط انجام شود.

طراحی برای شرایط کم‌داده در زبان فارسی

این پروژه برای شرایط کم‌داده نیز طراحی شده و با سازوکارهایی مانند افزایش داده، dropout روی ساختار، نمونه‌برداری از زیرساختارها، یادگیری contrastive، curriculum learning و early stopping تلاش می‌کند آموزش مدل در corpusهای کوچک کنترل‌پذیرتر و قابل‌اعتمادتر باشد. این موضوع برای زبان فارسی، که نسبت به زبان‌هایی مانند انگلیسی منابع و داده‌های کمتری دارد، یک مزیت راهبردی محسوب می‌شود.

زیرساخت یادگیری عمیق مبتنی بر PyTorch

از نظر زیرساخت یادگیری عمیق، استفاده از PyTorch یکی از نقاط مهم این پروژه است. PyTorch امروز یکی از چارچوب‌های اصلی و معتبر در پژوهش و توسعه مدل‌های هوش مصنوعی محسوب می‌شود، زیرا امکان طراحی انعطاف‌پذیر مدل، آموزش شبکه‌های عصبی، استفاده از GPU، توسعه سریع معماری‌های آزمایشی و اتصال به کتابخانه‌های تخصصی مانند PyTorch Geometric را فراهم می‌کند.

اهمیت این انتخاب زمانی روشن‌تر می‌شود که بدانیم شرکت OpenAI نیز در یادداشت رسمی در سال ۲۰۲۰ خود اعلام کرده است که چارچوب یادگیری عمیق خود را بر پایه PyTorch استاندارد کرده است:

https://openai.com/index/openai-pytorch

هم‌راستایی با استانداردهای جهانی توسعه هوش مصنوعی

بنابراین، استفاده از PyTorch و PyTorch Geometric فقط یک انتخاب فنی ساده نیست؛ بلکه نشان می‌دهد این پروژه بر بستری توسعه یافته که در سطح جهانی برای تحقیق، آموزش و پیاده‌سازی مدل‌های پیشرفته یادگیری عمیق پذیرفته شده است. این موضوع می‌تواند قابلیت توسعه‌پذیری، امکان استفاده از GPU، سازگاری با ابزارهای علمی روز و ظرفیت رشد پروژه را برای کاربردهای جدی‌تر در پردازش زبان فارسی تقویت کند.

کاربردهای این پروژه متن باز در پردازش زبان فارسی

پروژه متن‌باز Rakhshai Graph-based NLP با ترکیب گراف‌های زبانی، شبکه‌های عصبی گرافی، ترکیب هوشمند گراف و متن، حافظه ساختاری و مدل زبانی علّی، بستری بومی برای تحلیل، یادگیری و تولید متن فارسی فراهم می‌کند. این محصول می‌تواند در کاربردهایی مانند تحلیل محتوای فارسی، دسته‌بندی متن، پیشنهاد محتوا، خلاصه‌سازی، کشف ارتباطات متنی، تحلیل شبکه‌ای اسناد، تشخیص محتوای نامناسب و تولید زبان فارسی به‌کار گرفته شود.

امکانات اجرایی برای توسعه‌دهندگان

از نظر اجرایی نیز این پروژه فقط یک نمونه پژوهشی نیست و امکاناتی مانند رابط خط فرمان، آموزش و ارزیابی، ذخیره و بارگذاری pipeline، baseline برای مقایسه منصفانه، پشتیبانی از GPU، checkpoint، cache و تولید متن قابل کنترل را در اختیار توسعه‌دهندگان قرار می‌دهد.

مزیت راهبردی محصول

مزیت راهبردی این محصول در این است که تنها یک مدل فارسی‌سازی‌شده یا فاین‌تیون‌شده نیست؛ بلکه یک مسیر معماری مستقل برای زبان فارسی ارائه می‌دهد و از سطح آماده‌سازی داده تا مدل‌سازی، آموزش، ارزیابی، حافظه ساختاری و تولید متن را در یک زیرساخت واحد پوشش می‌دهد.

دریافت تأییدیه دانش‌بنیان برای محصول کتابخانه ارائه خدمات NLP مبتنی بر گراف (Rakhshai-Graph-based-NLP)، گامی مهم در مسیر توسعه زیرساخت‌های بومی هوش مصنوعی فارسی، تقویت فناوری‌های متن‌باز و ایجاد ظرفیت‌های فناورانه مستقل در حوزه پردازش زبان طبیعی فارسی به شمار می‌رود.

ادامه توسعه با رویکرد متن‌باز و کاربردی

شرکت آریا هامان مهر پارسه اعلام می کند که توسعه این محصول با تمرکز بر پژوهش‌پذیری، شفافیت فنی، توسعه متن‌باز و کاربردپذیری در پروژه‌های واقعی ادامه خواهد یافت.

دسترسی به کتابخانه ارائه خدمات NLP مبتنی بر گراف (Rakhshai-Graph-based-NLP) :
https://github.com/bazpardazesh-org/Rakhshai-Graph-based-NLP

نشریه رخشای