توسعه پشتیبانی از Intrinsics سخت‌افزاری در NET 8.

Q: ویژگی های ذاتی سخت افزاری در .NET 8 چیست؟

ویژگی های ذاتی سخت افزاری در .NET 8 به توسعه دهندگان امکان می دهد تا از دستورالعمل های خاص سخت افزاری مانند SIMD برای بهبود عملکرد برنامه های خود استفاده کنند. این ویژگی ها به طور مستقیم با سخت افزار تعامل دارند و می توانند سرعت و کارایی برنامه ها را به طور قابل توجهی افزایش دهند.

Q: چگونه ویژگی های ذاتی سخت افزاری عملکرد برنامه ها را بهبود می بخشند؟

با استفاده از دستورالعمل های خاص سخت افزاری، ویژگی های ذاتی سخت افزاری می توانند عملیات پیچیده را با سرعت بیشتری انجام دهند. این امر به ویژه در برنامه هایی که نیاز به پردازش سنگین دارند، مانند برنامه های گرافیکی، علمی و مالی، مفید است.

Q: چه نوع دستورالعمل های سخت افزاری در .NET 8 پشتیبانی می شوند؟

.NET 8 از دستورالعمل های سخت افزاری مختلفی مانند SIMD (Single Instruction Multiple Data) و سایر دستورالعمل های خاص پردازنده پشتیبانی می کند. این پشتیبانی به توسعه دهندگان امکان می دهد تا برنامه های خود را برای استفاده از حداکثر توان سخت افزاری بهینه سازی کنند.

فهرست مقاله [نمایش]

.NET تاریخچه طولانی در ارائه دسترسی به قابلیت‌های سخت‌افزاری اضافی از طریق APIهایی دارد که به طور بومی توسط کامپایلر JIT درک می‌شوند. این امر از .NET Framework در سال 2014 آغاز شد و با معرفی .NET Core 3.0 در سال 2019 گسترش یافت. از آن زمان، ران‌تایم به طور تکراری APIهای بیشتری ارائه داده و در هر نسخه از این موضوع بهتر بهره برده است.
پشتیبانی از WebAssembly
WebAssembly، یا به اختصار Wasm، در واقع کدی است که در مرورگر شما اجرا می‌شود و اجازه می‌دهد تا یک پروفایل عملکردی بسیار بالاتر از پشتیبانی اسکریپت‌های معمول تفسیر شده داشته باشد. به عنوان یک پلتفرم، Wasm شروع به ارائه پشتیبانی زیرین SIMD (دستورالعمل واحد، داده‌های چندگانه) کرده است تا الگوریتم‌های اصلی را تسریع کند و .NET به تبع آن تصمیم گرفته است تا از این عملکرد از طریق intrinsics سخت‌افزاری پشتیبانی کند.
این پشتیبانی بسیار شبیه به مبانی است که سایر پلتفرم‌ها ارائه می‌دهند و بنابراین ما به جزئیات قابل توجهی وارد نخواهیم شد. در عوض، می‌توانید انتظار داشته باشید که الگوریتم‌های چندپلتفرمی موجود شما با استفاده از Vector128<T> به طور ضمنی در جایی که پشتیبانی می‌شود، فعال شوند. اگر می‌خواهید از عملکردهای منحصر به فرد Wasm به صورت مستقیم استفاده کنید، می‌توانید از APIهایی که توسط کلاس‌های PackedSimd و WasmBase در فضای نام System.Runtime.Intrinsics.Wasm ارائه می‌شوند، استفاده کنید

پشتیبانی از AVX-512

AVX-512 یک مجموعه ویژگی جدید برای کامپیوترهای x86 و x64 است. این همراه با خود مجموعه‌ای بزرگ از دستورالعمل‌ها و عملکردهای سخت‌افزاری جدیدی را به همراه دارد که قبلاً در دسترس نبودند، از جمله پشتیبانی برای 16 رجیستر SIMD اضافی، ماسکینگ اختصاصی و کار بر روی 512 بیت داده در یک زمان. دسترسی به این عملکرد نیازمند یک پردازنده نسبتاً جدید است، یعنی نیازمند Skylake-X یا جدیدتر از اینتل و Zen4 یا جدیدتر از AMD است. به دلیل این، تعداد کاربرانی که می‌توانند از این عملکرد جدید بهره ببرند کمتر است، اما بهبودهایی که می‌تواند به این سخت‌افزار بیاورد همچنان قابل توجه است و ارائه پشتیبانی از آن برای بارهای کاری سنگین داده ارزشمند است. علاوه بر این، JIT به صورت فرصت‌طلبانه از این دستورالعمل‌ها برای کد SIMD موجود استفاده می‌کند جایی که فایده‌ای را تشخیص می‌دهد. برخی مثال‌ها عبارتند از:

•    استفاده از vpternlog به جای and، andn، یا or وقتی یک انتخاب شرطی بیتی انجام می‌شود (Vector128.ConditionalSelect)
•    استفاده از کدگذاری EVEX برای انجام بیشتر عملیات در کمتر بایت‌های کد، مانند برای پخش داخلی (x + Vector128.Create(5))
•    استفاده از دستورالعمل‌های جدیدتر جایی که پشتیبانی اکنون با AVX-512 وجود دارد، مانند برای ترکیب کامل عرض و بسیاری از عملیات‌های بلند/ulong (Int64/UInt64)
•    بهبودهای دیگری نیز وجود داشت، که در اینجا لیست نشده‌اند، و می‌توان انتظار داشت که بیشتری به مرور زمان اضافه شوند

برخی موارد مانند Vector<T> که اجازه می‌دهند به 512 بیت مقیاس‌پذیری کنند، در .NET 8 تکمیل نشده بودند
برای پشتیبانی از اندازه بردار جدید 512 بیت، .NET نوع Vector512<T> را معرفی کرد. این همان سطح API عمومی را که انواع بردار ثابت‌اندازه مانند Vector256<T> دارند، ارائه می‌کند. همچنین ادامه می‌دهد به نمایش دادن ویژگی Vector512.IsHardwareAccelerated که به شما اجازه می‌دهد تعیین کنید آیا منطق عمومی باید در سخت‌افزار تسریع شود یا اینکه در نهایت از طریق یک فالبک نرم‌افزاری رفتار را شبیه‌سازی خواهد کرد.

Vector512 به طور پیش‌فرض با AVX-512 در سخت‌افزار Ice Lake و جدیدتر تسریع می‌شود (و در نتیجه Vector512.IsHardwareAccelerated گزارش می‌دهد که صحیح است)، جایی که دستورالعمل‌های AVX-512 باعث کاهش چشمگیر سرعت CPU نمی‌شوند؛ در حالی که استفاده از دستورالعمل‌های AVX-512 می‌تواند کاهش سرعت قابل توجهی را در سخت‌افزارهای مبتنی بر Skylake-X، Cascade Lake، و Cooper Lake ایجاد کند (همچنین بخش 2.5.3 مدیریت توان سرور Skylake در دستورالعمل بهینه‌سازی معماری‌های Intel® 64 و IA-32 را مشاهده کنید: جلد 1). در حالی که این در نهایت برای بارهای کاری بزرگ مفید است، می‌تواند تأثیر منفی بر بارهای کاری کوچکتر داشته باشد و به همین دلیل ما به طور پیش‌فرض گزارش می‌دهیم که Vector512.IsHardwareAccelerated بر این پلتفرم‌ها نادرست است. Avx512F.IsSupported همچنان گزارش می‌دهد که صحیح است و پیاده‌سازی زیرین Vector512 همچنان از دستورالعمل‌های AVX-512 استفاده می‌کند اگر به طور مستقیم فراخوانی شود. این امکان را به بارهای کاری می‌دهد تا از عملکرد بهره‌برداری کنند جایی که می‌دانند صریحاً مفید است بدون اینکه به طور تصادفی تأثیر منفی بر دیگران داشته باشند.

تشکر ویژه

این عملکرد از طریق مشارکت‌های قابل توجه توسط دوستان ما در اینتل امکان‌پذیر شد. تیم .NET و اینتل بارها در طول سال‌ها همکاری کرده‌اند و این همکاری ادامه یافته است تا ما با هم بر روی طراحی کلی و پیاده‌سازی کار کنیم، که اجازه داد پشتیبانی AVX-512 در .NET 8 قرار گیرد.
همچنین مشارکت و تأیید زیادی از جامعه .NET وجود داشت که به دستیابی به موفقیت و بهبود بیشتر نسخه کمک کرد.
اگر می‌خواهید مشارکت کنید یا نظر بدهید، لطفاً به ما در مخازن dotnet/runtime در GitHub بپیوندید، و به بررسی API در کانال YouTube بنیاد .NET گوش دهید که ما در آن برنامه‌های جدید اضافه شده به کتابخانه‌های .NET را بحث می‌کنیم و حتی می‌توانید نظرات خود را از طریق کانال چت ارائه دهید.

فقط 512 بیت نیست؟

بر خلاف نام، AVX-512 فقط در مورد پشتیبانی 512 بیتی نیست. رجیسترهای اضافی، پشتیبانی از ماسک، پشتیبانی از گرد کردن یا پخش داخلی و دستورالعمل‌های جدید نیز همه برای بردارهای 128 بیتی و 256 بیتی وجود دارند. این بدان معناست که بارهای کاری موجود شما به طور ضمنی بهتر می‌شوند و شما می‌توانید از عملکردهای جدیدتر به طور صریح استفاده کنید که چنین روشنایی ضمنی در آن‌ها امکان‌پذیر نیست.
وقتی SSE در سال 1999 بر روی اینتل Pentium III معرفی شد، 8 رجیستر را ارائه داد که هر کدام 128 بیت طول داشتند. این رجیسترها به عنوان xmm0 تا xmm7 شناخته می‌شدند. وقتی بعداً پلتفرم x64 در سال 2003 بر روی AMD Athlon 64 معرفی شد، 8 رجیستر اضافی را ارائه داد که در کد 64 بیتی قابل دسترسی بودند. این رجیسترها به نام xmm8 تا xmm15 نامگذاری شدند. این پشتیبانی اولیه از یک طرح کدگذاری ساده استفاده می‌کرد که به شیوه‌ای بسیار مشابه با دستورالعمل‌های عمومی کار می‌کرد و تنها اجازه می‌داد که 2 رجیستر مشخص شوند. برای چیزی مانند جمع که نیاز به 2 ورودی دارد، این بدان معنا بود که یکی از رجیسترها به عنوان هم ورودی و هم خروجی عمل می‌کرد. این بدان معنا بود که اگر ورودی و خروجی شما باید متفاوت باشد، برای تکمیل عملیات به 2 دستورالعمل نیاز داشتید. به طور مؤثر، z = x + y شما تبدیل می‌شد به z = x؛ z += y. در سطح بالا این‌ها به همان شکل رفتار می‌کنند، اما در سطح پایین 2 مرحله به جای 1 مرحله برای اتفاق افتادن وجود دارد.

این سپس در سال 2011 با معرفی AVX توسط اینتل در پردازنده‌های مبتنی بر Sandy Bridge گسترش یافت و پشتیبانی آن به 256 بیت افزایش یافت. این رجیسترهای جدیدتر به نام‌های ymm0 تا ymm15 نام‌گذاری شدند، با این تفاوت که تنها رجیسترها تا ymm7 برای کد 32 بیتی قابل دسترس بودند. این همچنین یک کدگذاری جدید به نام VEX (توسعه‌های برداری) را معرفی کرد که اجازه می‌داد 3 رجیستر کدگذاری شوند. این به این معنی بود که می‌توانید z = x + y را به طور مستقیم کدگذاری کنید و نیازی به تقسیم آن به 2 مرحله جداگانه نباشد.
سپس AVX-512 در سال 2017 توسط اینتل با پردازنده‌های مبتنی بر Skylake-X معرفی شد. این پشتیبانی را به 512 بیت گسترش داد و رجیسترها را به نام‌های zmm0 تا zmm15 نام‌گذاری کرد. همچنین 16 رجیستر جدید، به درستی با نام‌های zmm16 تا zmm31 نام‌گذاری شدند که همچنین دارای نسخه‌های xmm16-xmm31 و ymm16-ymm31 هستند. مانند موارد قبلی، تنها رجیسترها تا zmm7 برای کد 32 بیتی قابل دسترس هستند. این 8 رجیستر جدید، به نام‌های k0 تا k7 را معرفی کرد که برای پشتیبانی از «ماسکینگ» طراحی شده‌اند و همچنین یک کدگذاری جدید به نام EVEX (توسعه‌های برداری پیشرفته) که اجازه می‌دهد تمام این اطلاعات جدید بیان شوند. کدگذاری EVEX همچنین دارای ویژگی‌های دیگری است که اجازه می‌دهد اطلاعات و عملیات رایج‌تر به شکلی فشرده‌تر بیان شوند. این می‌تواند به کاهش اندازه کد کمک کند در حالی که عملکرد را بهبود می‌بخشد.

چه دستورالعمل‌های جدیدی وجود دارند؟

عملکردهای جدید زیادی وجود دارد، خیلی زیاد که نمی‌توان همه را در این پست وبلاگ پوشش داد. اما برخی از دستورالعمل‌های جدید قابل توجه شامل موارد زیر است:
•    پشتیبانی برای انجام عملیاتی مانند Abs، Max، Min و شیفتینگ روی اعداد صحیح 64 بیتی - قبلاً این عملکرد باید با استفاده از چندین دستورالعمل شبیه‌سازی می‌شد
•    پشتیبانی برای انجام تبدیل‌ها بین اعداد صحیح بدون علامت و انواع نقطه شناور
•    پشتیبانی برای کار با موارد لبه نقطه شناور
•    پشتیبانی برای بازچینی کامل عناصر در یک بردار یا چندین بردار
•    پشتیبانی برای انجام 2 عملیات بیتی در یک دستورالعمل واحد

پشتیبانی از اعداد صحیح 64 بیتی قابل توجه است زیرا به این معنی است که کار با داده‌های 64 بیتی نیازی به استفاده از یک دنباله کد کندتر یا جایگزین برای پشتیبانی از همان عملکرد ندارد. این کار را برای نوشتن کد شما بسیار آسان‌تر می‌کند و انتظار می‌رود که رفتار آن بدون توجه به نوع داده زیرینی که با آن کار می‌کنید، یکسان باشد.
پشتیبانی از تبدیل نقطه شناور به اعداد صحیح بدون علامت به دلایل مشابه قابل توجه است. تبدیل از double به long به یک دستورالعمل نیاز داشت، اما تبدیل از double به ulong به بسیاری از دستورالعمل‌ها نیاز داشت. با AVX-512 این به یک دستورالعمل تبدیل می‌شود و به کاربران امکان می‌دهد تا عملکرد مورد انتظار را هنگام کار با داده‌های بدون علامت به دست آورند. این می‌تواند در سناریوهای مختلف پردازش تصویر یا یادگیری ماشینی رایج باشد.
پشتیبانی گسترده برای داده‌های نقطه شناور یکی از ویژگی‌های مورد علاقه من در AVX-512 است. برخی از مثال‌ها شامل توانایی استخراج توان بدون جانبداری (Avx512F.GetExponent) یا مانتیسا نرمال‌شده (Avx512F.GetMantissa)، گرد کردن یک مقدار نقطه شناور به تعداد خاصی از بیت‌های کسری (Avx512F.RoundScale)، ضرب کردن یک مقدار در 2^x (Avx512F.Scale، شناخته شده در C به عنوان scalebn)، انجام Min، Max، MinMagnitude و MaxMagnitude با پردازش صحیح +0 و -0 (Avx512DQ.Range)، و حتی انجام کاهش‌ها که در هنگام کار با مقادیر بزرگ برای توابع مثلثاتی مانند Sin یا Cos مفید است (Avx512DQ.Reduce) است.
با این حال، یکی از موارد مورد علاقه شخصی من دستورالعملی به نام vfixupimm (Avx512F.Fixup) است. در سطح بالا، این دستورالعمل به شما اجازه می‌دهد تا تعدادی از موارد لبه ورودی را تشخیص دهید و خروجی را به یکی از خروجی‌های معمول "تعمیر" کنید و این کار را به ازای هر عنصر انجام دهید. این می‌تواند عملکرد برخی الگوریتم‌ها را به طور چشمگیری بهبود بخشد و میزان پردازش مورد نیاز را به شدت کاهش دهد. نحوه عملکرد آن این است که ابتدا 4 ورودی به نام‌های چپ، راست، جدول و کنترل را می‌گیرد. ابتدا ارزیابی مقدار نقطه شناور در راست انجام می‌دهد و تعیین می‌کند که آیا QNaN (0)، SNaN (1)، +/-0 (2)، +1 (3)، -Infinity (4)، +Infinity (5)، منفی (6) یا مثبت (7) است. سپس از آن برای خواندن 4 بیت از جدول استفاده می‌کند (QNaN که 0 است، بیت‌های 0..3 را می‌خواند؛ منفی که 6 است بیت‌های 24..27 را می‌خواند). مقدار این 4 بیت در جدول تعیین می‌کند که نتیجه چه خواهد بود. نتایج احتمالی (به ازای هر عنصر) عبارتند از:

الگوی بیت	تعریف
0b0000	left[i]
0b0001	right[i]
0b0010	QNaN(right[i])
0b0011	QNaN
0b0100	-Infinity
0b0101	+Infinity
0b0110	IsNegative(right[i]) ? -Infinity : +Infinity
0b0111	-0.0
0b1000	+0.0
0b1001	-1.0
0b1010	+1.0
0b1011	+0.5
0b1100	+90.0
0b1101	PI / 2
0b1110	MaxValue
0b1111	MinValue

با SSE، پشتیبانی برای ترتیب‌بندی مجدد داده‌ها در یک بردار وجود داشت. به عنوان مثال، فرض کنید 0، 1، 2، 3 را دارید و می‌خواهید آن را به ترتیب 3، 1، 2، 0 مرتب کنید. با معرفی AVX و گسترش به 256 بیت، این پشتیبانی نیز گسترش یافت. با این حال، به دلیل نحوه عملکرد دستورالعمل‌ها، شما در واقع همان عملیات 128 بیتی را دو بار انجام می‌دادید. این کار توسعه الگوریتم‌های موجود به 256 بیت را آسان کرد، زیرا شما در واقع همان کار را دو بار انجام می‌دهید. با این حال، کار با سایر الگوریتم‌ها را دشوارتر می‌کرد، وقتی که شما واقعاً نیاز داشتید تا کل بردار را به طور یکپارچه در نظر بگیرید. برخی دستورالعمل‌ها بودند که به شما امکان می‌دادند داده‌ها را در کل بردار 256 بیتی مرتب کنید، اما آن‌ها اغلب محدود بودند یا در نحوه مرتب‌سازی داده‌ها یا در انواعی که پشتیبانی می‌کردند (ترکیب کامل عناصر بایت یک مثال قابل توجه از پشتیبانی موجود نیست). AVX-512 بسیاری از همان ملاحظات را برای پشتیبانی گسترده 512 بیتی خود دارد. با این حال، همچنین دستورالعمل‌های جدیدی را معرفی می‌کند که شکاف را پر می‌کنند و اکنون به شما اجازه می‌دهند تا عناصر را برای هر اندازه عنصر به طور کامل مرتب کنید.
در نهایت، یکی دیگر از موارد مورد علاقه شخصی من دستورالعملی به نام vpternlog (Avx512F.TernaryLogic) است. این دستورالعمل به شما اجازه می‌دهد هر 2 عملیات بیتی را ترکیب کنید، به طوری که آن‌ها می‌توانند در یک دستورالعمل اجرا شوند. به عنوان مثال، شما می‌توانید (a & b) | c را انجام دهید. نحوه کار این است که 4 ورودی، a، b، c و کنترل را می‌گیرد. سپس شما 3 کلید را به خاطر دارید: A: 0xF0، B: 0xCC، C: 0xAA. برای نمایش عملیات مورد نظر، شما به سادگی کنترل را با انجام آن عملیات بر روی این کلیدها ایجاد می‌کنید. بنابراین، اگر می‌خواستید فقط a را برگردانید، از 0xF0 استفاده می‌کنید. اگر می‌خواستید a & b را انجام دهید، از (byte)(0xF0 & 0xCC) استفاده می‌کنید. اگر می‌خواستید (a & b) | c را انجام دهید، آنگاه (byte)((0xF0 & 0xCC) | 0xAA است. در مجموع 256 عملیات مختلف ممکن است، با بلوک‌های اساسی این کلیدها و عملیات‌های بیتی زیر:

عملیات	تعریف
not	~x
and	x & y
nand	~x & y
or	x یا y
nor	~x یا y
xor	x ^ y
xnor	~x ^ y

عملیات‌های ویژه‌ای نیز وجود دارند که با استفاده از عملیات‌های پایه‌ای فوق، می‌توانند گسترش

عملیات	تعریف
false	الگوی بیتی 0x00
true	الگوی بیتی 0xFF
major	اگر دو یا بیشتر از دو بیت ورودی 0 باشند، 0 برمی‌گرداند؛ اگر دو یا بیشتر از دو بیت ورودی 1 باشند، 1 برمی‌گرداند
minor	اگر دو یا بیشتر از دو بیت ورودی 1 باشند، 0 برمی‌گرداند؛ اگر دو یا بیشتر از دو بیت ورودی 0 باشند، 1 برمی‌گرداند
انتخاب شرطی	به صورت منطقی (x & y)

در .NET 8 ما پشتیبانی کامل برای شناسایی و تا کردن این الگوها به صورت خودکار برای ایجاد vpternlog را به اتمام نرساندیم. انتظار داریم این در .NET 9 به نمایش درآید.

پشتیبانی از ماسکینگ (Masking) چیست؟

در ساده‌ترین سطح، نوشتن کد برداری (vectorized code) شامل استفاده از SIMD برای انجام یک عملیات اساسی یکسان روی تعداد مختلف المان‌های نوع T در یک دستورالعمل واحد است. این زمانی بسیار خوب عمل می‌کند که همان عملیات باید روی همه داده‌ها انجام شود. با این حال، همه داده‌ها لزوما یکنواخت نیستند و گاهی اوقات نیاز است که ورودی‌های خاصی را به طور متفاوتی رسیدگی کنید. برای مثال، ممکن است بخواهید عملیات متفاوتی برای اعداد مثبت در مقابل اعداد منفی انجام دهید. ممکن است نیاز داشته باشید نتیجه متفاوتی برگردانید اگر کاربر NaN وارد کرده باشد، و غیره. هنگام نوشتن کد معمولی، معمولاً این موارد را با یک شاخه (branch) رسیدگی می‌کنید و این بسیار خوب عمل می‌کند. اما، هنگام نوشتن کد برداری، چنین شاخه‌هایی قابلیت استفاده از دستورالعمل‌های SIMD را مختل می‌کنند چون باید هر عنصر را به طور مستقل رسیدگی کنید. .NET از این موقعیت‌ها در مکان‌های مختلف استفاده می‌کند، از جمله APIهای جدید TensorPrimitives که به ما اجازه می‌دهد داده‌های انتهایی را که در غیر این صورت در یک بردار کامل جا نمی‌گرفتند، رسیدگی کنیم.
راه‌حل معمول برای این موضوع نوشتن کد «بدون شاخه» است. یکی از ساده‌ترین راه‌ها برای انجام این کار محاسبه هر دو پاسخ و سپس استفاده از عملیات‌های بیتی برای انتخاب پاسخ صحیح است. می‌توانید این را مانند یک شرط سه‌تایی cond ? result1 : result2 در نظر بگیرید. برای پشتیبانی از این در SIMD، API به نام ConditionalSelect وجود دارد که یک ماسک و هر دو نتیجه را می‌گیرد. ماسک نیز یک بردار است، اما مقادیر آن معمولا یا AllBitsSet یا Zero هستند. وقتی این الگو را دارید، پیاده‌سازی ConditionalSelect به طور موثر (cond & result1) | (~cond & result2) است. این به معنای گرفتن بیت‌ها از result1 است که بیت متناظر در cond 1 باشد و در غیر این صورت گرفتن بیت متناظر از result2 (وقتی بیت در cond 0 باشد). بنابراین اگر می‌خواستید تمام مقادیر منفی را به 0 تبدیل کنید، می‌توانید چیزی مانند (x < 0) ? 0 : x برای کد معمولی داشته باشید و Vector128.ConditionalSelect(Vector128.LessThan(x, Vector128.Zero), Vector128.Zero, x) برای کد برداری. این کمی طولانی‌تر است، اما می‌تواند بهبود قابل توجهی در عملکرد ارائه دهد.

زمانی که سخت‌افزارها برای اولین بار از پشتیبانی SIMD بهره بردند، باید این ماسکینگ را به صورت کاملاً واقعی با انجام ۳ دستورالعمل: and، nand، و or پشتیبانی می‌کردید. با ورود سخت‌افزارهای جدیدتر، نسخه‌های بهینه‌تری اضافه شدند که به شما اجازه می‌دادند این کار را در یک دستورالعمل واحد انجام دهید، مانند blendv در x86/x64 و bsl در Arm64. AVX-512 سپس این را یک گام جلوتر برد و با معرفی پشتیبانی سخت‌افزاری اختصاصی برای بیان ماسک‌ها و ردیابی آن‌ها در رجیسترها (k0-k7 که قبلاً ذکر شد)، آن را توسعه داد. سپس پشتیبانی اضافی برای اجازه دادن به این ماسکینگ به عنوان بخشی از تقریباً هر عملیات دیگری فراهم شد. بنابراین به جای اینکه مجبور باشید vcmpltps؛ vblendvps؛ vaddps (مقایسه، ماسک، سپس اضافه کردن) را مشخص کنید، می‌توانستید آن ماسک را مستقیماً به عنوان بخشی از اضافه کردن کدگذاری کنید (و به این ترتیب vcmpltps؛ vaddps را به جای آن صادر کنید). این اجازه می‌دهد تا سخت‌افزار عملیات‌های بیشتری را در فضای کمتری نمایش دهد، تراکم کد را بهبود بخشد، و بهتر از رفتار مورد نظر بهره ببرد.
قابل ذکر است که ما مفهوم ۱ به ۱ را با سخت‌افزار زیرین برای ماسکینگ در اینجا مستقیماً بروز نمی‌دهیم. بلکه JIT همچنان یک بردار معمولی را برای نتایج مقایسه می‌گیرد و برمی‌گرداند و الگوهای مربوطه را شناسایی کرده و سپس از ویژگی‌های ماسکینگ مبتنی بر این به صورت فرصت‌طلبانه روشنایی می‌دهد. این امکان را فراهم می‌کند که سطح API نمایش داده شده به طور قابل توجهی کوچک‌تر باشد (بیش از ۳۰۰۰ API کمتر)، برای کد موجود به طور عمده «فقط کار کند» و بدون اقدام صریح از پشتیبانی سخت‌افزار جدیدتر بهره ببرد، و برای کاربرانی که می‌خواهند از AVX-512 پشتیبانی کنند، نیازی به یادگیری مفاهیم جدید یا نوشتن کد به روش جدید نباشد.

چه مثال‌هایی از استفاده عملی AVX-512 وجود دارد؟

AVX-512 می‌تواند برای تسریع همه سناریوهایی که بر اساس SSE یا AVX هستند استفاده شود. یک روش آسان برای شناسایی مکان‌هایی که کتابخانه‌های .NET از این تسریع استفاده می‌کنند، جستجو برای مکان‌هایی است که ما Vector512.IsHardwareAccelerated را فراخوانی می‌کنیم. این کار را می‌توان با استفاده از source.dot.net انجام داد.
مواردی که ما تسریع کرده‌ایم شامل:
•    System.Collections.BitArray – ایجاد، عملیات‌های منطقی and، or، xor، not
•    System.Linq.Enumerable – بیشترین (Max) و کمترین (Min)
•    System.Buffers.Text.Base64 – رمزگشایی، رمزنگاری
•    System.String – برابری (Equals)، بی‌تفاوتی نسبت به حروف بزرگ یا کوچک (IgnoreCase)
•    System.Span – جستجوی عنصر (IndexOf)، جستجوی چند عنصر (IndexOfAny)، جستجو در بازه (IndexOfAnyInRange)، برابری توالی (SequenceEqual)، معکوس کردن (Reverse)، حاوی بودن (Contains) و غیره
دیگر مثال‌ها در سراسر کتابخانه‌های .NET و اکوسیستم عمومی .NET وجود دارد، که شامل سناریوهایی مانند تبدیل رنگ، پردازش تصویر، یادگیری ماشینی، ترجمه متن، تجزیه JSON، رندرینگ نرم‌افزاری، پردازش اشعه (ray tracing)، تسریع بازی‌ها و بسیاری موارد دیگر می‌شود.

بعد چی؟

ما برنامه داریم که پشتیبانی از ویژگی‌های سخت‌افزاری در .NET را هر زمان و جایی که منطقی باشد، بهبود ببخشیم. لطفاً توجه داشته باشید که موارد زیر تفکرات آینده‌نگرانه و گمانه‌زنی هستند. این لیست کامل نیست و ما هیچ تضمینی نمی‌دهیم که هیچ‌کدام از این ویژگی‌ها ارائه شوند یا اگر ارائه شوند، چه زمانی منتشر خواهند شد.
برخی از موارد در برنامه طولانی‌مدت ما شامل موارد زیر می‌شوند:

•    پشتیبانی از SVE و SVE2 برای Arm64
•    AVX10 برای x86/x64
•    اجازه دادن به Vector<T> برای گسترش خودکار به 512 بیت
•    یک رابط ISimdVector<TSelf, T> برای امکان استفاده بهتر از منطق SIMD
ا    یک آنالیزور برای تشویق کاربران به استفاده از APIهای چندپلتفرمی که در آن‌ها معنی‌شناسی یکسان است (استفاده از x + y به جای Sse.Add(x, y))
•    یک آنالیزور برای شناسایی الگوهایی که ممکن است جایگزین‌های بهینه‌تری داشته باشند (استفاده از value + value به جای value * 2 یا Sse.UnpackHigh(value, value) به جای Sse.Shuffle(value, value, 0b11_11_10_10))
•    استفاده بیشتر و صریح از ویژگی‌های سخت‌افزاری در APIهای مختلف .NET
•    APIهای چندپلتفرمی اضافی برای کمک به انتزاع عملیات‌های مشترک
•    دریافت شاخص اولین/آخرین مطابقت در یک ماسک
•    دریافت تعداد مطابقت‌ها در یک ماسک
•    تعیین اینکه آیا مطابقت‌هایی وجود دارند
•    اجازه دادن به رفتار غیرقطعی برای مواردی مانند Shuffle یا ConditionalSelect
•    این APIها امروز در همه پلتفرم‌ها رفتار تعریف شده‌ای دارند، مانند Shuffle که هر شاخص خارج از محدوده را به عنوان صفر کردن عنصر مقصد تلقی می‌کند
•    APIهای جدید، مانند ShuffleUnsafe، به جای آن اجازه رفتار متفاوتی برای شاخص‌های خارج از محدوده می‌دهند
•    برای چنین سناریویی، Arm64 همان رفتار را خواهد داشت، در حالی که x64 فقط در صورت تنظیم بیت بالاترین ارزش دارد
•    شناسایی الگوهای اضافی برای مواردی مانند
•    ماسکینگ تعبیه شده (AVX512، AVX10، SVE/SVE2)
•    ترکیب عملیات‌های منطقی (vpternlog در AVX512)
•    فرصت‌های محدود تا کردن ثابت در زمان JIT
اگر به دنبال استفاده از ویژگی‌های سخت‌افزاری در .NET هستید، تشویق می‌کنیم که APIهای موجود در فضای نام System.Runtime.Intrinsics را امتحان کنید، پیشنهادات API برای عملکردهایی که احساس می‌کنید گم شده‌اند یا می‌توانند بهبود یابند، ثبت کنید و در نسخه‌های پیش‌نمایش ما شرکت کنید تا قبل از ارسال آن‌ها از عملکرد آن‌ها استفاده کنید و کمک کنید تا هر انتشاری بهتر از آخرین باشد!