Prymitywne prezentacje LLM i metodologiczny dramat testu Interii pisania matury przez AI
Maciej Lesiak
- 12 minut czytania - 2516 słówSpis treści
Dzisiejszy tekst, jakkolwiek przypadkowo pojawił się na blogu, to jednak nie jest przypadkowy. Od dłuższego czasu śledzę uważnie kwestię AI/LLM w edukacji, szkolnictwie oraz ogólnie w Polsce. W kontekście matur wypłynęła kwestia zastosowania AI do rozwiązania egzaminów. Ten artykuł to część większej całości, gdzie chciałbym skonfrontować się z czymś, co uważam za całkowitą porażkę i nieobecność merytorycznej debaty o AI/LLM w Polsce, która jest sprowadzana albo do straszenia “bańką AI” przez technopesymistów, albo do absurdu jak w prymitywnym teście maturalnym Interii.
Portal Interia przeprowadził test, w którym trzy różne modele AI - ChatGPT, Claude i DeepSeek - miały napisać wypracowanie maturalne. Wszystkie modele otrzymały dokładnie to samo polecenie przeklejone z tegorocznego arkusza maturalnego z języka polskiego. Temat wypracowania brzmiał: “Jak błędna ocena sytuacji wpływa na życie człowieka?”. Bez jakichkolwiek dodatkowych wskazówek czy dostosowania prompta do specyfiki modelów, po prostu dano im zadanie i czekano na wyniki.
Dwa z trzech narzędzi zdały maturę z polskiego. W przeprowadzonym przez Interię teście ChatGPT zdobył 33/35 punktów (94%), Claude dostał 32/35 (91%), a DeepSeek zaliczył totalną porażkę z 7/35 punktami (20%).
Ale zamiast zachwycać się wynikami ChatGPT i Claude, skupmy się na tym, jak przeprowadzono ten test. Cały test jest metodologicznie wadliwy - identyczny prompt wklejony do różnych modeli AI i ten sam model oceny to fundamentalny błąd. Jest to podejście całkowicie ignorujące fakt, że zarówno darmowe jak i płatne modele mają różne limity tokenów i architektury. DeepSeek przy takim podejściu był z góry skazany na porażkę, nie ze względu na swoje możliwości, ale z powodu ograniczeń, które nie zostały uwzględnione w metodologii testu.
Fundamentalny błąd w metodologii testu
Prawdopodobnie dziennikarze nie mieli pojęcia o kluczowej kwestii: rozumieniu limitów modeli LLM. Każdy model ma określone ograniczenia w przetwarzaniu i generowaniu tekstu. Niektóre modele radzą sobie dobrze z długimi wypowiedziami w jednym prompcie, inne potrzebują innego podejścia.
Na początku, gdy pojawił się GPT, sam wykorzystałem ten mechanizm do stworzenia pracy konkursowej o bioróżnorodności (tak, chciałem strollować konkurs ekologiczny pokazując, że laik może wysłać pracę konkursową - zrezygnowałem). Najpierw wygenerowałem konspekt, następnie tworzyłem poszczególne elementy z uwzględnieniem limitów modelu, a później przekształciłem to w podcasta (przy wsparciu ćwierkania z YT jako tła muzycznego + text2speech Google). Kluczowe było zrozumienie, kiedy model zaczyna wyczerpywać swoje możliwości - jeśli masz za mało tokenów, wyczerpiesz operacje na generowanie słabej jakości tekstu. Dlatego istotny jest odpowiedni podział pracy.
Mogę się założyć, że opisana w Interii sytuacja opierała się na tym, że poszedł jeden długi prompt i po tym oczekiwali efektów…
To jest najczęstszy błąd ludzi korzystających z LLM - chcą wszystko zrobić jednym promptem zamiast podzielić zadanie na mniejsze części. To jest chyba najczęstszy problem z AI/LLM nie rozumienie limitów w ramach których operujemy, przez co rozjeżdżają nam się oczekiwania i efekty.
DeepSeek nie jest “totalną porażką”
Najbardziej rozbawiło mnie to, że DeepSeek poległ na najprostszej rzeczy, jego praca miała mniej niż 300 słów, ale model twierdził, że ma ich 390. Klasyczny przypadek, skończyły mu się tokeny do generowania, a system reportował fałszywą liczbę.
DeepSeek nie jest wcale “totalną porażką”. I nie wymagam od nauczycielki, żeby to rozumiała, bo to powinien dopisać nieistniejący specjalista w redakcji interii. Jest po prostu modelem, który wymaga innego podejścia. Jeden model zdradza ciążę użytkowniczki zanim ona sama o tym wie, a drugi nie potrafi zwrócić 300 słów przy złej konfiguracji. Zatem to nie “porażka” modelu, czy interpratacji nauczycielki, tylko test jest głupi bo tak ustawiła to redakcja. Powinien to wyłapać specjalista, którego zabrakło w interii.
Test samochodów z różnymi silnikami, ale tą samą ilością paliwa
W fediwersum wywiązała się dyskusja na ten temat, gdzie jeden użytkownik zbijał moje argumenty. Ja per analogiam powiem, że cały ten metodologiczny dramat testu Interii można porównać do następującej sytuacji: ktoś testuje trzy samochody - pierwszy z silnikiem 2.0, drugi z 1.6, a trzeci z 1.0 - wlewając do każdego dokładnie litr paliwa, a następnie ogłasza, że ten z silnikiem 1.0 jest “totalną porażką”. I mówi to wujek, który ma 20 letni złom sprowadzany do Niemca, ale jest wybitnym specjalistą motoryzacji i tworzy takie kuriozalne porównania. To samo obserwujemy teraz w AI, mamy wysyp specjalistów. Jesteśmy na takim poziomie pseudo-debaty.
Takie podejście całkowicie ignoruje specyfikę testowanych systemów. Ba, pomija się wręcz, że obecnie filozofią optymalizacji pracy jest DEDYKOWANIE MODELI czyli ich specjalizacja. To wymaga nie tyle zróżnicowanego podejścia, ale przede wszystkim znajomości ich limitów. Różne modele LLM mają różne architektury i limity, a sposób użycia tych narzędzi bezpośrednio wpływa na wyniki. To nie magiczna wiedza, czy abstrakcyjna “tokenizacja” dla znawców, tylko fundamentalna cecha tych systemów, którą należy uwzględnić przy jakimkolwiek sensownym testowaniu.
Jak naprawdę powinien wyglądać metodologicznie poprawny test?
Cóż, niestety miałem metodologię nauk jako przedmiot kierunkowy. Gdyby test był przeprowadzony poprawnie, należałoby:
- Przygotować oddzielne strategie prompting dla każdego modelu, uwzględniając ich specyfikę
- Zrozumieć limity i możliwości każdego modelu przed rozpoczęciem testu
- Dostosować podejście do charakterystyki modelu - niektóre modele potrzebują rozbicia zadania na mniejsze części, inne radzą sobie z całością
- Monitorować zużycie tokenów i jakość wyników podczas generowania
- Porównać wyniki przy optymalnym využyciu każdego narzędzia, a nie przy identycznym podejściu
Tylko wtedy możemy mówić o rzetelnym porównaniu możliwości tych modeli. Jeśli takie podejście jest dla ciebie przeintelektualizowaniem, to rzeczywiście onet i fakt pozostaje do czytania.
Konsekwencje bezmyślnego testowania
Artykuły typu “ChatGPT zdał maturę, DeepSeek oblał” są szkodliwe z kilku powodów:
- Tworzą fałszywe wyobrażenie o możliwościach AI - sugerują, że jedne modele są bezwzględnie lepsze od innych, podczas gdy różnica często leży w sposobie ich używania
- Ignorują znaczenie prompt engineeringu - sprawiają wrażenie, że AI to magiczne czarne skrzynki, do których wrzucamy pytania i wyciągamy odpowiedzi
- Nie uczą krytycznego podejścia - zamiast pokazywać, jak mądrze korzystać z tych narzędzi, promują bezmyślne wklejanie poleceń
Z tych trzech punktów na pewno cieszą się amisze technologiczni, którzy najlepiej zakazaliby złego AI i wrócili do ery kamienia łupanego. Namiętnie i codziennie wykazują od rana do wieczora rzekome głupoty AI, a jak widać po raz kolejny to operator zawiódł. Tak, niewykluczone, że Polacy pozostaną w erze przed-AI patrząc na brak odpowiedniej debaty na temat technologii…
Czego faktycznie dowodzi ten test?
Test Interii, wbrew intencjom, doskonale ilustruje jedną rzecz: większość ludzi nie ma pojęcia, jak efektywnie korzystać z narzędzi AI. Porównywanie wyników trzech modeli przy identycznym prompcie to jak testowanie trzech różnych samochodów z identyczną ilością paliwa, bez względu na spalanie i specyfikę pojazdu. Wujo-schumacher wierci się w fotelu, już chce powiedzieć swoje trzy grosze…
Prawdziwe pytanie nie powinno brzmieć “który model najlepiej zdał maturę?”, ale “jak efektywnie wykorzystać każde z tych narzędzi?” Różne modele mają różne mocne strony i ograniczenia - umiejętność ich rozpoznania i dostosowania swojego podejścia to prawdziwa sztuka pracy z AI. Moim zdaniem na razie polska edukacja nie potrafi odpowiedzieć na to fundamentalne pytanie, a to ustawienie odpowiedzi decyduje o adaptacji do nadchodzących zmian. Wydaje mi się, że my nie jesteśmy nawet na poziomie stawiania poprawnego pytania.
Co naprawdę oznacza “zdana matura”?
Fakt, że ChatGPT i Claude “zdały maturę” gdy DeepSeek “oblał”, nic nam nie mówi o prawdziwych możliwościach tych modeli. To tylko informacja o efektach konkretnego, prymitywnego podejścia do ich użycia. Metodologia testów modeli AI uwzględnia czasami pytania kalibracyjne. Krytycy bańki AI bardzo często podnoszą ten scoring jako właśnie zarzut wadliwej metodologii.
Profesjonalne testy modeli LLM zawsze uwzględniają różne scenariusze użycia. Iteracyjne podejście to nie “prowadzenie za rękę”, tylko standardowa strategia pracy z tokenami i możliwość EWALUACJI - tak używa się tych narzędzi w praktyce. Test ignorujący fundamentalne różnice między modelami nie mówi nam nic o ich faktycznych możliwościach, tylko o działaniu przy jednym, arbitralnie wybranym podejściu.
Stan absorpcji AI w edukacji i szerszy problem metodologii. Petros, gdzie jesteś? Petros?
Obserwując stan absorpcji AI w polskiej edukacji, nie mogę nie zauważyć, jak bardzo brakuje nam rzetelnej wiedzy i merytorycznej dyskusji. Przypadek Petrosa Psyllosa (celebryty AI ,który prowadzi szkolenia i spotkania z pracownikami edukacji dotyczące zastosowań i zagrożeń AI) pokazuje, że nawet te pozytywne inicjatywy to wciąż za mało wobec skali wyzwań i tempa zmian. Zupełnie abstrahuję od wieku kadry nauczycielskiej i tego, że dziecko z 3 klasy podstawówki potrafi lepiej obsługiwać urządzenia typu tablet, czy chatGPT niż nauczyciel. Widzę w tym spory problem i ale również potencjał.
Obecnie zamiast rzetelnej analizy i debaty otrzymujemy clickbaitowe nagłówki i prymitywne testy przeprowadzane przez osoby niemające podstawowej wiedzy o działaniu testowanych systemów. Brakuje mi w redakcji osoby, może jakiegoś etyka z wiedzą IT, który dodałby odpowiedni komentarz do tego testu. Tym bardziej, że takie teksty mają ogromny zasięg rażenia i tworzą wyborażenia o możliwościach AI.
Dalej sprawdzacie czy AI lunatykuje? A może to wy lunatykujecie?
Jedynym sensownym wnioskiem z testu Interii jest to, że przy bezmyślnym podejściu “jeden długi prompt i czekamy” ChatGPT i Claude radzą sobie lepiej niż DeepSeek. Ale to niczego nie dowodzi o rzeczywistych możliwościach tych narzędzi.
Prawdziwa biegłość w korzystaniu z AI nie polega na wyborze “najlepszego” modelu, ale na zrozumieniu wszystkich dostępnych narzędzi, ich specyfiki i opracowaniu strategii ich optymalnego wykorzystania.
W dobie rozwoju AI kluczową umiejętnością staje się wybór modelu, co przede wszystkim zrozumienie, jak efektywnie z nim rozmawiać. To jakość prompta, a nie sam model, często decyduje o jakości wyniku. Tymczasem dziennikarze, ale także informatycy krytykujący bezmyślnie “bańkę AI” nadal tkwią w przekonaniu, że można po prostu wkleić polecenie i zobaczyć, “który model lepszy”. Niektórzy celebryci nadal sprawdzają swoje nazwiska śmiejąc się, że AI lunatykuje, bo przecież nie potrafi poprawnie podać co oni napisali, albo przekręcają ich imię i nazwisko (sic!).
Odpowiedzialność za przekaz: żal.ai
Dyskusja, jaka wywiązała się po publikacji wyników testu Interii, odsłania jeszcze jeden istotny aspekt całej sprawy. Jest to odpowiedzialność za kształtowanie opinii publicznej o nowych technologiach. Jakkolwiek w przypadku polskich mediów ciężko mówić o odpowiedzialności, to jednak tysiące nauczycieli, rodziców i decydentów czyta takie testy i wyrabia sobie na ich podstawie konkretne poglądy o możliwościach i ograniczeniach AI.
Niektórzy bronią takich publikacji argumentem, że “to tylko popularnonaukowy materiał dla laików, a nie rygorystyczny test techniczny”101010.pl. To fundamentalne niezrozumienie istoty problemu. Właśnie dlatego, że materiał jest kierowany do szerokiej publiczności (która nie ma wiedzy technicznej), rzetelność metodologiczna jest jeszcze ważniejsza. Wprowadzenie czytelnika w błąd co do przyczyn określonych wyników (np. “słabości” DeepSeek wynikającej z metodologii testu, a niekoniecznie z inherentnych ograniczeń modelu) jest szczególnie problematyczne.
Bagatelizowanie znaczenia technicznych aspektów dla oceny możliwości AI to jak obrona recenzji samochodu, w której wujo-schumacher zignorował instrukcję obsługi i podstawowe zasady działania silnika, a następnie ogłosił, który model jest “najlepszy”. Laik, czytając taką recenzję, wyciągnie błędne wnioski, które mogą wpłynąć na jego decyzje i opinie.
Upraszczanie złożonych tematów dla laików jest potrzebne, ale nie powinno odbywać się kosztem rzetelności w kluczowych aspektach. Test Interii mógłby być wartościowy, gdyby jego autorzy uczciwie przyznali, że są laikami testującymi narzędzia, których specyfiki do końca nie rozumieją, i gdyby opatrzyli wyniki odpowiednim komentarzem o ograniczeniach metodologicznych.
Jak napisałbym dziś wypracowanie maturalne przy użyciu AI? Na pewno nie jednym promptem… w stylu mojego bloga TL;DR
Suplement medialnej papki: etyczne mainstream media - “przejęcie” seo heist tematu przez Onet?
A, to smakowite konfitury zostawiłem sobie na koniec. Osobną kwestią jest, że interia przeprowadziła test możliwości AI w kontekście matur, a gdy redakcja onet.pl się zorientowała opublikowała (według mojej najlepszej wiedzy) bez podania źródeł informację o przeprowadzonym teście na swoich stronach. Wyglądało to tak jakby oni byli autorami testu. Nie zauważyłem w analizowanych podstronach wzmianek o źródle. Internauci przeklejali link do tekstu onetu tak jakby to oni stali za tym testem. Jest to klasyczny SEO heist polegający na tym, że jak pali ci się pod tyłkiem, bo konkurencja ma coś zgarniającego ruch, to po prostu skopiuj to i wypozycjonuj tak, aby przejąć ten ruch. Na pewno musiało być to bardzo popularne, skoro onet zdecydował się na tak bezczelny ruch. Dodaje to specyficznego smakowitego wymiaru do całej sprawy… i wypada tylko spytać, czy od takich mediów warto wymagać etycznego przedstawiania AI, skoro na takim elementarnym poziomie zawodzą?
Porównanie modeli AI - kwiecień 2025
(za redblink.com)
Poniższa tabela przedstawia porównanie głównych modeli AI dostępnych publicznie według stanu na kwiecień 2025.
Feature | ChatGPT (OpenAI) | Gemini (Google) | Claude (Anthropic) | Grok (xAI) | DeepSeek |
---|---|---|---|---|---|
Model bazowy & dostęp | Free: GPT-3.5; Płatny: GPT-4 via ChatGPT Plus. Dostęp przez web i aplikację. | Free: Gemini base. Płatny: Gemini Advanced (Pro) via Google One Premium. Dostęp przez bard.google.com. | Free: Claude 2/3. Płatny: Ten sam model, więcej użycia. Dostęp przez claude.ai. | Free: Grok-2/3 limitowane zapytania. Płatny: Pełny dostęp przez X Premium. Dostęp przez grok.com lub X. | Free: DeepSeek V3/R1. Bez logowania. Nieograniczone użycie. Brak płatnej wersji. |
Wsparcie kodowania | Tak. Free: tylko sugestie kodu. Plus: Code Interpreter do wykonywania kodu Python. | Tak. Pisze, debuguje, wyjaśnia. Advanced lepszy w złożonym kodowaniu. Integracja z Google Colab. | Tak. Obsługuje duże bazy kodu. Bez wykonywania. Free i Pro ten sam model, Pro = więcej użycia. | Tak. Obsługuje kod, duży kontekst. Brak wykonywania. Pro = więcej zapytań. | Tak. Pomoc w programowaniu konkursowym. Bez wykonywania, ale pełne wyjście. Nieograniczone użycie. |
Analiza dokumentów i plików | Free: Wklej tekst (4K-8K tokenów). Plus: Wgrywanie plików, Code Interpreter (~100MB, 32K tokenów). | Free: Załączanie plików. Płatny: Do 1,500 stron. Streszcza duże PDF-y, tabele. | Tak. Free: 50 wiadomości/dzień. Płatny: więcej użycia, kontekst 100k-tokenów, wgrywanie długich dokumentów. | Tak. Brak UI do wgrywania - wklej tekst. “DeepSearch” może pobierać zewnętrzny kontekst. | Tak. Wklej tekst. Obsługuje długie prompty. Brak UI do wgrywania plików. Nieograniczone darmowe użycie. |
Generowanie obrazów (AI Art) | Tylko użytkownicy Plus mogą generować obrazy (DALL·E 3). | Tak. Free: ograniczona zawartość. Płatny: szersze generowanie (np. postacie ludzkie). | Nie. Nie może generować obrazów. | Tak. Aurora do generowania obrazów. Free: ~10/2h. Płatny: bez limitu. | Nie. Asystent tylko tekstowy. Brak generowania obrazów. |
Analiza obrazów | Tylko użytkownicy Plus mogą wgrywać obrazy (GPT-4V). | Tak. Integracja Google Lens dla wszystkich użytkowników. | Tak. Claude 3 obsługuje wejście obrazów (5 na wiadomość). | Tak. Podstawowa wizja (3/dzień darmowo). Pro: więcej + analiza klatek wideo. | Nie. Nie może analizować obrazów. |
Dostęp do internetu | Free: Brak dostępu do sieci. Plus: Przeglądanie sieci przez Bing. | Tak. Dostęp do sieci przez Google Search (darmowy i płatny). | Nie. Brak wbudowanego dostępu do sieci. Tylko analiza offline. | Tak. Wyszukiwanie w czasie rzeczywistym na X i w sieci. Free i płatny. | Nie. Brak dostępu do sieci. Tylko statyczna wiedza. |
Pamięć i personalizacja | Free: 8K kontekstu, niektóre niestandardowe instrukcje. Plus: 32K tokenów, trwałe ustawienia, niestandardowe GPT. | Free: Tylko pamięć sesji. Płatny: Trwała pamięć, niestandardowe Gems. | Free: Brak trwałości. Pro: Dostosowanie persony, trwałe zachowanie. | Tylko pamięć sesji. Strojenie stylu na sesję. Brak trwałego profilu. | Tylko pamięć sesji. Brak trwałego profilu ani zapisanych czatów. |
Limity darmowej wersji | Free: Tylko GPT-3.5, brak wtyczek/obrazów, ograniczona dostępność. | Free: Brak twardego limitu, ale ograniczone narzędzia. Używa prostszego modelu. | Free: 50 wiadomości/dzień, potem czekanie. Ta sama jakość modelu. | Free: 10 wiadomości/2h, ograniczone zapytania obrazowe. | Brak limitów. Darmowy i nieograniczony dla wszystkich użytkowników. |
Wersja płatna i korzyści | $20/mies: GPT-4, DALL·E, przeglądanie, wejście obrazów, Code Interpreter, niestandardowe GPT. | $20/mies: Model Pro, duże pliki, generowanie obrazów, pamięć, niestandardowe Gems, pomoc Docs/Gmail. | $20/mies: 250 wiadomości/dzień, integracja Slack, wczesny dostęp do funkcji. | $8-$40/mies: Nieograniczone zapytania, szybsze wyjście, generowanie obrazów, wczesne funkcje. | Brak płatnej wersji. Wszystkie funkcje są darmowe dla konsumentów. |
Uwaga: Powyższe dane odzwierciedlają stan na kwiecień 2025 i dotyczą publicznych, konsumenckich funkcji i różnic w planach między ChatGPT, Gemini Google, Claude Anthropic, Grok xAI i DeepSeek.
Źródła
AI napisały tegoroczne wypracowania maturalne. Jedna platforma całkowicie poległa - Interia, maj 2025
ChatGPT vs Gemini vs Grok vs Claude vs Deepseek – LLM Comparison [2025]
Powiązane tematy
- Funkcja fatyczna w praktyce: jak podtrzymywanie rozmowy przez ChatGPT generuje milionowe straty
- Widownia klika, Mateusz Chrobok obśmiewa: YouTube jako fabryka bezmyślnej krytyki AI
- Seria AI: scenariusz jak SI może przejmować systemy rekomendacyjne, generując i wzmacniając teorie spiskowe oraz dezinformację
- Seria AI: Metoda majeutyczna - doskonalenie AI promptami
- Seria AI: Ostateczne ostrzeżenie Sztucznej Inteligencji przed własnym rozwojem
- Między innowacją a dezinformacją – analiza rynku książek generowanych przez sztuczną inteligencję
- AI w służbie teorii spiskowych i paranoicznego myślenia
- Funkcja fatyczna w praktyce: jak podtrzymywanie rozmowy przez ChatGPT generuje milionowe straty
Wesprzyj Niezależne Badania

Jeśli uważasz te badania za wartościowe, rozważ wsparcie przez Ko-fi. Twój wkład pomaga utrzymać ten projekt jako wolny od reklam, niezależny zasób.
KAWA ZAMIAST POCISKÓWBezpośrednie wsparcie oznacza więcej badań, lepszą treść i brak reklam.