Firma Microsoft poinformowała o wprowadzeniu aktualizacji infrastruktury wyszukiwania Bing, obejmujących duże modele językowe (LLM), małe modele językowe (SLM) i nowe techniki optymalizacji.
Celem tej aktualizacji jest poprawa wydajności i obniżenie kosztów dostarczania wyników wyszukiwania.
W ogłoszeniu firma podaje:
„W Bingu zawsze przesuwamy granice technologii wyszukiwania. Wykorzystanie zarówno dużych modeli językowych (LLM), jak i małych modeli językowych (SLM) stanowi znaczący kamień milowy w ulepszaniu naszych możliwości wyszukiwania. Podczas gdy modele transformatorowe dobrze nam służyły, rosnąca złożoność zapytań wyszukiwania wymagała bardziej wydajnych modeli”.
Korzystanie z LLM w systemach wyszukiwawczych może powodować problemy z szybkością i kosztami.
Aby rozwiązać te problemy, Bing wytrenował algorytmy SLM, które według firmy są 100 razy szybsze od algorytmów LLM.
W ogłoszeniu czytamy:
„LLM mogą być drogie w obsłudze i powolne. Aby zwiększyć wydajność, przeszkoliliśmy modele SLM (~100-krotna poprawa przepustowości w porównaniu z LLM), które przetwarzają i rozumieją zapytania wyszukiwania dokładniej”.
Bing wykorzystuje również technologię NVIDIA TensorRT-LLM w celu udoskonalenia działania SLM.
TensorRT-LLM to narzędzie pomagające skrócić czas i obniżyć koszty uruchamiania dużych modeli na procesorach graficznych NVIDIA.
Według raportu technicznego firmy Microsoft, integracja technologii TensorRT-LLM firmy Nvidia udoskonaliła funkcję „ Deep Search ” firmy.
Funkcja Deep Search wykorzystuje modele SLM w czasie rzeczywistym, aby dostarczać trafne wyniki wyszukiwania w sieci.
Przed optymalizacją oryginalny model transformatora Binga charakteryzował się opóźnieniem na poziomie 95. percentyla wynoszącym 4,76 sekundy na partię (20 zapytań) i przepustowością wynoszącą 4,2 zapytania na sekundę na wystąpienie.
Dzięki TensorRT-LLM opóźnienie spadło do 3,03 sekundy na partię, a przepustowość wzrosła do 6,6 zapytań na sekundę na wystąpienie.
Oznacza to 36-procentową redukcję opóźnień i 57-procentową redukcję kosztów operacyjnych.
Spółka oświadcza:
„… nasz produkt opiera się na fundamencie dostarczania najlepszych wyników i nie będziemy iść na kompromis w kwestii jakości na rzecz szybkości. To właśnie tutaj TensorRT-LLM wkracza do gry, skracając czas wnioskowania modelu, a w konsekwencji opóźnienie doświadczenia end-to-end bez poświęcania jakości wyników”.
Ta aktualizacja oferuje użytkownikom usługi Bing kilka potencjalnych korzyści:
Przejście Binga na modele LLM/SLM i optymalizację TensorRT może mieć wpływ na przyszłość wyszukiwania.
Ponieważ użytkownicy zadają bardziej złożone pytania, wyszukiwarki muszą lepiej je rozumieć i szybko dostarczać trafne wyniki. Bing zamierza to zrobić, używając mniejszych modeli językowych i zaawansowanych technik optymalizacji.
Choć na pełne efekty trzeba będzie poczekać, ruch Binga otwiera podwaliny nowego rozdziału w historii wyszukiwania.
Wyróżniony obraz: mindea/Shutterstock