Hoppa till innehållet

Användardiskussion:Wiisourcebot

Sidans innehåll stöds inte på andra språk.
Från Wikipedia

Sveriges Radio-källor

[redigera wikitext]

@LittleGun Nu har jag börjat komma igång med att fixa SR-källor m.m., skall börja på koden idag. Detta konto Wiisourcebot kommer jag göra mina redigeringar via.

Finns det något sätt jag kan skapa sandlådesidor som jag kan öva boten på? Wii174 (diskussion) 18 februari 2024 kl. 17.14 (CET)[svara]

Grymt! Hur fungerar boten? Fixar den också att ersätta texten "sverigesradio.se" till "Sveriges Radio" under parametern verk? Och allra helst manuellt(?) peta in rätt författare?
Jag tycker inte något av det ska vara tvingande för boten, men att ändra verk borde var "lågt hängande frukt, som man säger? Så för min del går det att köra ändå.
Hur man gör med sanlådesidor/provkörning vet jag tyvärr inte. Testa att fråga på Wikipedia:Wikipediafrågor. LittleGun (diskussion) 18 februari 2024 kl. 17.48 (CET)[svara]
Uttryckte nog mig lite fel. Det finns ingen kod klar alltså, utan jag har nyss skaffat mig motivationen att börja. Men ja, målet är att fixa allt som är fel i källhänvisningarna, åtminstone så mycket som möjligt.
Kom på nu att man kanske kan skapa sandlådesidor under botens användarsida. Ska testa. Wii174 (diskussion) 18 februari 2024 kl. 18.18 (CET)[svara]
Postar via bot-kontot: Har nu satt upp Användare:Wiisourcebot/sandlåda. Om du hittar några andra typer av källor, t.ex. SR med mer info eller SVT som jag tror vi nämnde, är det fritt fram att posta dem på denna sida så lägger jag in dem på min sandlåda. Wiisourcebot (diskussion) 18 februari 2024 kl. 18.28 (CET)[svara]
Grymt! Man kan absolut göra undersidor till boten. Man kan till och med kopiera in befintliga artiklar till undersidor. Jag tänkte att det kanske fanns något etablerat sätt.
Känn dig inte tvungen att "fixa allt". Att bara få bort förnamn=Sveriges och efternamn=Radio (som ger "Radio, Sveriges" i referensåtergivningen) är en stor förbättring.
Om inte url:en funkar går det att använda "mediearkivet". Då är det snyggt sätta dit hämtatum och Läst via=Mediarkivet. Se Wikipediadiskussion:Wikipediabiblioteket. Men det är verkligen överkurs.
Lycka till! LittleGun (diskussion) 18 februari 2024 kl. 18.33 (CET)[svara]
Arkiverar mediearkivet alla SR-sidor alltså? Wiisourcebot (diskussion) 18 februari 2024 kl. 18.36 (CET)[svara]
Inte alla, jag tror det blir fel ibland. Men det mesta. Sen vet jag inte hur långt tillbaks, men det är nog inte så länge. LittleGun (diskussion) 19 februari 2024 kl. 00.00 (CET)[svara]
Då vet jag. Här är regexet som jag planerar använda, i Python-stil: {{Webbref.*?(\|förnamn=Sveriges.*?\|efternamn=Radio|\|efternamn=Radio.*?\|förnamn=Sveriges)}} Testat en sökning manuellt på Bahnhof, som har ett urval Radio, Sveriges (4 matchar). Wiisourcebot (diskussion) 19 februari 2024 kl. 10.11 (CET)[svara]
Detta regex fångar inte mallanrop där
  • det finns ytterligare parametrar efter förnamn/efternamn. Ett exempel på där så är fallet är artikeln Eva Rydberg. Jag tror att du kan plocka bort de inledande och avslutande måsvingarna utan större risk för några falska träffar.
eller
  • mallnamnet anges som webbref i stället för Webbref. Ett exempel på där så är fallet är artikeln Elli Avram. Jag tror att du även kan plocka bort det inledande W:et utan större risk för några falska träffar.
-- Larske (diskussion) 19 februari 2024 kl. 11.34 (CET)[svara]
Jag fick ett nytt regex designat av en bekant: {{[Ww]ebbref\|(?:[^}]|(?:}(?!})))*?(?:förnamn=Sveriges\b(?:[^}]|(?:}(?!})))*?\|efternamn=Radio\b|efternamn=Radio\b(?:[^}]|(?:}(?!})))*?\|förnamn=Sveriges\b)(?:[^}]|(?:}(?!})))*?}} Detta regex bör matcha alla webbrefs korrekt, och undvika att två webbrefs kombineras. Wiisourcebot (diskussion) 19 februari 2024 kl. 11.55 (CET)[svara]

Det är jättebra om dessa felaktiga för- och efternamn åtgärdas, men om det är ett inbyggt fel i VisualEditor som ständigt skapar dessa "förslag" som sedan okritiskt accepteras, känns det som ett Sisyfosarbete. Vi borde nog även försöka påverka lite mer uppströms i processen så att felen undviks från början. Ett steg på vägen skulle kunna vara att införa ett redigeringsfilter som ger en markering, till exempel Kontrollera redigeringen, i Senaste ändringar.

Därför har jag filat lite på ett Testfilter som gör att redigeringar som lägger till rader där förnamn=Sveriges och/eller efternamn=Radio förekommer förses med ett märke som syns i Senaste ändringar och även i den berörda artikelns historik.

Exempel från Sandlådan

Om detta fungerar bra kan vi, efter eventuella justeringar, göra ett separat filter för problemet. --Larske (diskussion) 19 februari 2024 kl. 12.16 (CET)[svara]

Jo, så är det. Boten ska inte vara den slutgiltiga lösningen, utan främsta uppdraget är att rensa bort det som redan är fel. Jag överlåter nog resten till dem som sköter VE. Boten kan byggas om för att laga i teorin vilka källor som helst, inte bara SR. Efter allt är klart kan jag köra igång den igen alltså ifall samma problem uppstår med någon annan källa. Wiisourcebot (diskussion) 19 februari 2024 kl. 12.33 (CET)[svara]

LittleGun: Har tittat lite på olika typer av artiklar på SR. Det är väldigt inkonsistent. Oftast saknas författarens namn. Ibland finns det med men en robot kan inte urskilja det så lätt eftersom det ibland blir att de skriver t.ex. "P3 Kalmar" i författarrutan. Tror vi får skippa och gå vidare utan det. Ska börja testredigering idag. Wii174 (diskussion) 19 februari 2024 kl. 13.14 (CET)[svara]

Ja, det är synd men jag förstår det. Jag undrar vad man kan ska skicka webmastern göra för att få ordning på detta. Vissa tidningar, särskilt amerikanska, funkar det klockrent på. "Landsortspressen" hade jag en bild tidigare av att det fungerade på också. Tex [1] LittleGun (diskussion) 19 februari 2024 kl. 13.54 (CET)[svara]
Nyss körde jag en testredigering: https://sv.wikipedia.org/w/index.php?title=Användare:Wiisourcebot/sandlåda&diff=prev&oldid=54449208, ser väl bra ut? Om du tycker det kan jag kanske låta boten redigera 5-10 sidor och rulla tillbaka ifall det strular. Wiisourcebot (diskussion) 19 februari 2024 kl. 14.30 (CET)[svara]
Här kommer även ett större test: https://sv.wikipedia.org/w/index.php?title=Användare:Wiisourcebot/sandlåda&diff=prev&oldid=54449230, som innefattar 12 källor Wiisourcebot (diskussion) 19 februari 2024 kl. 14.39 (CET)[svara]

@LittleGun Jag lät boten redigera ett tiotal sidor. Resultatet ser gott ut. Wii174 (diskussion) 19 februari 2024 kl. 17.19 (CET)[svara]

Trycke enter för snabbt! Har nu ansökt om botflagga iaf. Wii174 (diskussion) 19 februari 2024 kl. 17.20 (CET)[svara]
Uppdatera gärna din ansökan med avseende på "verk" och "utgivare", så att ingen som läser den blir förvirrad, så ska jag sätta robotflaggan. -- Larske (diskussion) 19 februari 2024 kl. 18.46 (CET)[svara]
Sådär, fixat! 84.218.4.74 19 februari 2024 kl. 23.10 (CET)[svara]
Oops, glömde visst att logga in. Men 84-IP:n är jag iallafall! Wii174 (diskussion) 19 februari 2024 kl. 23.11 (CET)[svara]
Botflaggan är nu tilldelad. Kör försiktigt och lycka till med rensningen av "Radio, Sveriges". Larske (diskussion) 20 februari 2024 kl. 21.07 (CET)[svara]

Ska Sveriges Radio anges som verk eller utgivare?

[redigera wikitext]

@Wii174: Jag funderar lite på det här med |verk=Sveriges Radio. Är det inte bättre med |utgivare=[[Sveriges Radio]]? Det är åtminstone vanligare:

  • Länk till sökfråga som hittar (just nu 287) artiklar som använder |verk=Sveriges Radio
  • Länk till sökfråga som hittar (just nu 2 717) artiklar som använder |utgivare=[[Sveriges Radio]] (med eller utan wikilänk)

Enligt malldokumentationen kan verk vara "... en bok, tidskrift eller större webbplats", men inte ett företag. Som värde på verk är sverigesradio.se vanligt:

-- Larske (diskussion) 19 februari 2024 kl. 17.44 (CET)[svara]

Hm, det har du kanske rätt i. Jag tar och fixar de redigeringar jag gjort hittils då. Wii174 (diskussion) 19 februari 2024 kl. 17.51 (CET)[svara]
Sorry, det var jag... LittleGun (diskussion) 19 februari 2024 kl. 23.03 (CET)[svara]

Fel i Senaste ändringar

[redigera wikitext]

@Larske: Boten dyker ännu upp i Special:Senaste ändringar, se omkr kl 16:30. Har stoppat boten tills vidare. Wii174 (diskussion) 21 februari 2024 kl. 16.41 (CET)[svara]

Fixat. Behövde bara uppdatera botlösen med nya tillåtelsen Wiisourcebot (diskussion) 21 februari 2024 kl. 18.27 (CET)[svara]

Boten har fått göra sin första sökning och lagade 400 artiklar. Nu låter jag den gå igenom varje sida på svwp för att fixa. Den söker nu genom varje artikel på svwp vilket ska ta lite mer än en vecka. Wii174 (diskussion) 21 februari 2024 kl. 22.13 (CET)[svara]

Hmm, om boten bara letar efter artiklar som innehåller |förnamn=Sveriges och |efternamn=Radio finns det ett snabbare sätt än att "gå igenom varje sida på svwp". Du kan på några sekunder med sökfunktionen plocka fram kandidater för rättning
  • Länk till sökfråga som hittar (just nu 359) artiklar som innehåller |förnamn=Sveriges och |efternamn=Radio
för att sedan beta av dessa artiklar med boten. Larske (diskussion) 22 februari 2024 kl. 01.28 (CET)[svara]
Nu finns det endast 6 st artiklar kvar med problemet. Detta uppstår pga oväntade mellanslag, förekomst av mall inom mall, t.ex då {Webbref|titel=Testar {{!}} 1 2 3|url=...} matchas som {Webbref|titel=Testar {{!}}. Jag vet inte om det går att bygga om regexet för att exkludera mallar inuti mallar. Jag tänkte själv gå vidare och beta av SVT-problemet. Den blir lite svårare då "författarnamnen" ser lite olika ut från källa till källa. Wii174 (diskussion) 23 februari 2024 kl. 08.32 (CET)[svara]

"Landningssida"

[redigera wikitext]

@Wii174, @Larske och alla andra som bryr sig: För att slippa det som Larske kallar "sisofysarbete", kan man göra en landningssida för källfunktionen?

Landningssidan inser att det är en Sveriges Radio källa. Den kollar då vad som brukar vara fel i den metadata de får mot en wikipediansk "korrigeringsisda" för Sveriges Radio. Via korrigeringssidan får den i det fallet veta att verk=sverigesradio.se ska bytas eller kompletteras med utgivare=Sveriges Radio, och om det för författare är uppgivet "Radio, Sveriges", ska den tas bort och helst ersättas med en annan parameter för författaren etc.

Att Wikipedia helt enkelt identifierar var olika källors metadata skiljer sig från standard och försöker korrigera det. Det förutsätter att det alltid är samma fel i metadatan. I fallet Sveriges radio är det i varje fall alltid det för författare, och den skriver alltid "sverigesradio.se" istället för det snyggare "Sveriges Radio".

Så slipper man underhålla Argeus stall efter att Herkules rengjort det för första gången på 30 år och 1000 djur. LittleGun (diskussion) 23 februari 2024 kl. 09.32 (CET)[svara]

@LittleGun, borde man inte istället kunna modifiera direkt i VE? Vilka är det som håller i VE:s källkod? På något sätt kanske man kan lägga till ett undantag i koden för vissa webbsidor med kända fel t.ex. SR och SVT.
Jag förstår inte riktigt hur du menar, men en annan temporär lösning är väl att göra boten till en faktisk Sisyfos? Vi matar den med Seanst redigerade och låter den checka varje ny redigering. Wii174 (diskussion) 23 februari 2024 kl. 09.53 (CET)[svara]
Jag tänkte att det är lättare att underhålla om vi gör det själva. Angående ändring i källkoden skulle jag skriva till mediawiki och fråga: [2].
Det vore absolut bättre om det kunde skötas i koden, så att andra wikipedior fick samma inställningar. Ingen aning om det funkar så.
Ja, jag ser inga problem med att låta boten göra "sisofysarbetet" att ständigt uppdatera. Det var Larske som föreslog att också skulle försöka fixas "uppströms" ovan, [3].
(Sen blandade jag väldigt förnumstigt in Herkules. För han storstädade och sedan måste det underhållas, likt SR och din bot. Sisofys tvingades rulla upp en sten uppför ett berg, som sedan rullades ner och så fick han börja om. Alltså som om SR gick in och återställde din bot så att du fick göra om exakt samma sak för samma källangivelse igen och igen. Förnumstigt, var ordet.) LittleGun (diskussion) 23 februari 2024 kl. 10.13 (CET)[svara]
Jodå, men jag tänker att Sisyfosarbetet blir att laga en artikel som dyker upp i Senaste ändringar - och sen efter ett tag kommer en ny som han måste laga, osv osv osv. I vilket fall är inte grekisk mytologi del av min Python-kod :)
Ett filter skulle vara utmärkt. @Larske, hur ser det ut kring det? Wii174 (diskussion) 23 februari 2024 kl. 12.21 (CET)[svara]
Japp, så menade Larske med. Jag var bara fånig. Ett filter skulle vara utmärkt. LittleGun (diskussion) 23 februari 2024 kl. 12.34 (CET)[svara]
@Wii174: Som jag skrev i en annan tråd på den här sidan kl 12.16 i måndags har jag redan infört en mycket enkel kontroll för att få markeringen "kontrollera redigeringen" av alla redigeringar där Sveriges Radio delas upp och anges i parametrarna för- respektive efternamn. (Det är för närvarande en del av ett Testfilter som även hittar referensfel i fågelartiklar.)
När det gäller Sveriges Radio-problemet finns följande enkla regler:
  • även redigeringar i andra namnrymder än artikelnamnrymden får markeringen (men det kan man ju lätt filtrera bort i SÄ, &namespace=0)
  • även redigeringar där dessa för- eller efternamn bara råkar förekomma sedan tidigare fast på samma rad som man har ändrat något på, och som alltså syns i "diffen", får markeringen (men det är väl ganska bra då felet ändå bör åtgärdas, även om det inte är alldeles färskt)
  • även redigeringar där bara något av för- eller efternamn har respektive "felaktigt värde" får markeringen (men båda är ju så pass unika och "alltid fel" att även sådan redigeringar bör undersökas)
Nu har det bara gått fyra dagar så det är lite för tidigt för att utvärdera. Larske (diskussion) 23 februari 2024 kl. 16.00 (CET)[svara]
Jag kan absolut låta boten lyssna på Senast ändrade efter den markeringen.
Vill lyfta ett exempel från den sistnämnde redigeringen:
{{Tidningsref|rubrik=Yazidi {{!}} religious sect|url=https://www.britannica.com/topic/Yazidi|tidning=Encyclopedia Britannica|hämtdatum=2017-08-07|språk=en}}
Lägg märke till {{!}}. Denna mall förstör arbetet som regexen gör, då den stannar vid första bästa }}. Vet du om det finns något regex som kan matcha webbrefs med mallar inuti? Wii174 (diskussion) 23 februari 2024 kl. 17.17 (CET)[svara]