Jak poznám AI text pomocí diff porovnání
Řeším tohle asi rok. Někdo mi pošle text a já mám pocit, že ho nepsal člověk. GPTZero ukáže 60% - co to znamená? Nic moc. Tak jsem začal experimentovat s diff porovnáním a překvapivě to funguje líp.
Proč AI detektory nefungují spolehlivě
Zkoušel jsem GPTZero, Originality.ai, Copyleaks. Všechny mají problém:
Falešné poplachy:
- Formální text? AI!
- Překlad z angličtiny? AI!
- Student, co neumí moc dobře česky? Taky AI!
Falešné negativy:
- Text z ChatGPT upravený člověkem? Projde jako lidský
- Humanizační nástroje? Ty to prostě obejdou
Největší problém? Ty detektory ti řeknou číslo, ale nevysvětlí proč. 60% - a co s tím?
Moje metoda: porovnání s AI výstupy
Princip je jednoduchý. Vezmu podezřelý text, vytáhnu z něj hlavní myšlenku a nechám AI napsat totéž 2-3x. Pak to hodím do diffu.
Proč to funguje
AI píše konzistentně. Když zadáš stejné téma, dostaneš podobnou strukturu, podobné fráze, podobný styl. Člověk ne - každý má svůj rukopis.
Vysoká shoda (víc než 60%) - pravděpodobně AI Střední shoda (30-60%) - možná AI + lidská editace Nízká shoda (pod 30%) - spíš člověk
Příklad z praxe
Dostal jsem text:
Umělá inteligence představuje revoluční technologii, která zásadně mění způsob, jakým pracujeme s informacemi. V dnešní době se AI systémy stávají nedílnou součástí našeho každodenního života.
Nechal jsem Claude napsat totéž:
Umělá inteligence je revoluční technologie transformující způsob zpracování informací. V současnosti se AI systémy stávají běžnou součástí našeho každodenního života.
V diffu to bylo skoro totožné. Struktura, slovosled, dokonce ty fráze "v dnešní době", "nedílnou součástí". Jo, ten původní text byl z AI.
Co prozradí AI text
Po měsících experimentování jsem si všiml pár věcí:
Délka vět - AI píše rovnoměrně. Člověk střídá krátké a dlouhé.
Fráze - "V dnešní době", "Je důležité poznamenat", "Nicméně" - klasika. Taky "V kontextu moderní doby" a "Závěrem lze konstatovat".
Struktura - AI miluje symetrii. 3 body pro, 3 body proti. Všechny odstavce podobně dlouhé.
Osobní prvky - AI nepíše "hele" nebo "no prostě". Nemá osobní příběhy, nepíše o svých zkušenostech.
Když máš referenční text
Tohle je ještě lepší metoda. Máš text od někoho a máš jeho starší práce? Porovnej je.
Sleduju:
- Změnila se délka vět?
- Zmizely idiomy a slang?
- Nahradily se osobní příklady obecnými?
Jednou mi student odevzdal práci. Jeho maily psal krátce, s chybami, hovorově. A najednou perfektní akademický text bez jediné chyby. Jasný signál.
Prompt rekonstrukce
Další trik. Zkusím odhadnout, co by byl prompt pro daný text.
Text typu "5 důvodů proč meditovat" s číselnými body? Zkusím: "Napiš článek 5 důvodů proč meditovat, každý bod rozveď." Když AI vygeneruje skoro totéž, mám odpověď.
Co metoda nezvládne
Budu upřímný - není to stoprocentní:
- Kvalitně editovaný AI text nepoznám
- Bez referenčních textů je to těžší
- Někdy formální člověk píše jako AI
Proto to beru jako podpůrný nástroj, ne jako důkaz. Spíš "tohle vypadá podezřele, kouknu na to líp" než "tenhle text je určitě z AI".
Etika
Nepoužívám to k honbě na lidi. Spíš pro vlastní orientaci - když edituju cizí text, chci vědět, s čím pracuju. Nebo když kontroluju vlastní práci - nepřevzal jsem náhodou AI fráze?
Falešné obvinění na základě AI detektoru je blbost. I moje metoda může selhat. Vždycky je potřeba kontext.
Chceš to zkusit? PorovnejText - hodíš tam dva texty a hned vidíš rozdíly. Běží to v prohlížeči, nic nikam neposílám.
Vyzkoušejte PorovnejText.cz zdarma
Nejrychlejší český nástroj pro porovnání textů. Vše probíhá ve vašem prohlížeči, žádná registrace není potřeba.
Porovnat texty nyní →