User talk:Achim Raschka/Pilot article placeholder input

From Wikidata
Jump to navigation Jump to search

Basisdaten vs. Artikelstubs

[edit]

Ich habe gerade ein Verständisproblem. Unter Basisdaten würde ich eine ggf. leicht erweiterte Taxobox verstehen. Für on-the-fly generierte Artikelstubs - wie hier durch Denis angedeutet - werden Wikidata wohl auf absehbare Zeit die Daten fehlen. --Succu (talk) 21:32, 25 March 2015 (UTC)[reply]

Moin, ich denke als Platzhalter und vor allem als proof of concept reicht die erweiterte Taxonomie ein paar Zusätze wie im Reasonator auch erstmal aus - was anderes haben die Schweden ja auch nicht ([1]). Für weitere Eigenschaften müsste man diese erst hier etablieren - und soweit ich sehe ist bislang nicht wesentlich mehr machbar als die Taxonomie "endemisch in" "benannt nach" diverse IDs und soweit ich sehe wird das auch erstmal auf absehbare Zeit nicht wesentlich mehr (es sei denn es bildet sich eine Taskforce, die einzelne properties vorantreibt). -- Achim Raschka (talk) 06:11, 26 March 2015 (UTC)[reply]
Hi. Offen gesagt finde ich Platzhalter des Kalibers https://sv.wikipedia.org/wiki/Sandersiella_calmani als Ziel nicht lohnenswert. Das so etwas gehen wird, daran ist nicht zu zweifeln, es dürfte wohl sogar recht flott gehen. Aber - ob ein Bot so etwas erzeugt oder ein Platzhalter-Automatismus, das ist mir gleich, der Nutzen für Leser wie Autoren ist so gering, dass Texte dieser Art eben aus gutem Grund in der DE-WP unerwünscht sind.
Ich fände es gut, wenn das proof of concept sich ein ambitionierteres Ziel setzen würde, dass eine wirkliche Veränderung bringt. Teil eines solchen Modellprojektes muss dann natürlich auch sein, bestimmte für das entsprechende Datenmaterial benötigte Properties nach der entsprechenden Entscheidung für die Lebewesengruppe zu definieren und anzulegen, um sie dann zu füllen.
Hier einmal eine mögliche Schrittfolge eines solchen Projektes (alles unrein)
  • Vorüberlegungen (Kick-Off)
    • Was sind die Ansprüche an einen einfachen, faktenzentrierten Lebewesenartikel?
    • Welche Ansprüche an das Material ergeben sich daraus (Minimax Umfang, Qualität, Struktur, Systematisierbarkeit der Informationen, Aufwand des Importes in Wikidata, ...)
    • Welche Ansprüche an WikiData ergeben sich daraus? (Importschnittstelle, Properties etc.)
  • Materialakquise
    • Überblick über zur Verfügung stehende Lebewesen-Datenbanken oder digitalisierbare Literaturen, die obige Ansprüche erfüllen
    • Prüfung auf Zitierfähigkeit, Schnittstellen, Lizenzfragen, ...
    • Ggf. weitere Reduktion auf alle Datenbanken für die ein einfacher, faktenzentrierter Artikel adäquat ist (z.B. Felidae nicht, aber evtl. Burmannia oder Stummelfüßer)
    • Abschließende Auswahl
  • Umsetzung
    • Vorbereitung des Imports ggf. durch bezahlten Programmierer.
    • Anlage von Properties u.ä.
    • Import der Daten
    • Erstellung eines Artikelgerüstes in der Erstsprache.
    • "Botlauf"
    • Ggf. Erstellung von Artikelgerüsten in anderen Sprachen, jeweils gefolgt von Botlauf.
Es würde mich freuen, wenn Euch das gefällt. Lieben Gruß, Denis Barthel (talk) 13:41, 26 March 2015 (UTC)[reply]
Mmh, ich fürchte wir reden von verschiedenen, vielleicht aufeinander aufbauenden Vorhaben und ich denke, dass das, was du gern hättest, ein mehrjähriges Projekt wird. Mir würde es tatsächlich erstmal reichen, wenn Einträge wie sie derzeit der Reasonator macht, als Platzhalter in noch nicht existenten WP-Artikel stehen und damit von einer Anlage dieser Grottenstubs abhalten. Ich denke, erst wenn man es soweit hat, kann man es weiter ausdehnen - wenn gewollt. Status quo und Vision sind imho zu weit ausenander, um zu einem realistischen Vorhaben zu führen. -- Achim Raschka (talk) 13:54, 26 March 2015 (UTC)[reply]
Ja, da sind wir weit auseinander in der Machbarkeits-Prognose. Das wird mE weder so lange dauern noch so kompliziert sein. Aber ich wünsche Euch viel Spaß bei Eurem Projekt, darum geht es ja letztlich. Liebe Grüße, Denis Barthel (talk) 14:02, 26 March 2015 (UTC)[reply]
Hm, Denis wenn es denn so (fast) einfach ist warum gibt es nur wenige Ansätze morphologische und andere Daten über Lebewesen in „Form“ zu bringen? Allein die Farbe einer „Blüte“ zu vereinheitlichen trifft schnell auf Grenzen. Daniel hat da auch so den ein oder anderen „Traum“... Gruß --Succu (talk) 22:05, 26 March 2015 (UTC)[reply]
Meine Träume in der Richtung stehen im wesentlichen im Wiki4R-Antrag, in dem Taxonomie auch explizit benannt ist. Ich bin skeptisch, dass wir das für ein breites Thema schnell hinkriegen, aber um die grundlegenden Arbeitsschritte und Funktionalität zu testen, reicht ja vielleicht auch sowas wie Paedophryne (Q132975) mit derzeit sechs Arten, von denen nur eine auf dewp einen Artikel hat. Das geht auch manuell, und wenn wir es mit Automatisierung im Hinterkopf angehen, können wir dann vielleicht schon recht bald die specs für wesentliche Elemente des von Denis skizzierten langfristigeren Prozesses schreiben. --Daniel Mietchen (talk) 02:16, 27 March 2015 (UTC)[reply]
Succu (und hallo Daniel :), keine Frage - hochkomplexen Lebewesen und der sich daraus ergebenden Literatur gerecht zu werden (und das sind durchaus auch schon Pflanzen) ist nicht trivial. Daher ja auch die Beschränkung für das proof of concept auf ein Taxon, für das "ein einfacher, faktenzentrierter Artikel adäquat" sein muss.
Zum anderen: es gibt mindestens ein (neben extrem gleichförmigen Beschreibungen) hocherprobtes und sehr erfolgreiches Verfahren, morphologische Daten in Form zu bringen, nämlich den Bestimmungsschlüssel. Der liefert zwar diagnostische Merkmale, die nicht immer dem Leserinteresse entsprechen, weil die Behaarung der Spitze des Nebenblattes schon mal wichtiger sein kann als die Blütenfarbe, dürfte aber leicht extrahierbar sein (und bei synoptischen Schlüsseln ist die Information "breiter" und die Gefahr, das Leserinteresse zu verfehlen, auch geringer, siehe [2].
Das Informationen zur Verbreitung leicht "formbar" sind, ist offensichtlich und sieht man in allen Datenbanken recht überzeugend in Kartenform oder als Liste geographischer Einheiten dargestellt; etwas komplizierter, wenngleich je nach Informationstyp nicht unmöglich ist es bei Habitatinformationen. Dasselbe gilt für taxonomische/systematische Daten, zumindest bis zu einem gewissen Grad. Was dabei herauskommt, könnte im Groben dem Format von https://de.wikipedia.org/wiki/Inga_acrocephala oder https://de.wikipedia.org/wiki/Geryonia_proboscidalis entsprechen. Ich persönlich finde so etwas als Leser bereits relativ instruktiv. Liebe Grüße, Denis Barthel (talk) 08:23, 27 March 2015 (UTC)[reply]
Das es funktioniert, und wie es funktionieren könnte zeigt beispielsweise die DEscription Language for TAxonomy (DELTA). Auf der Seite The Open Biological and Biomedical Ontologies (OBO) befinden sich eine Reihe interessanter Modelle, darunter die Plant Ontology. Ich weiß nicht, ob ihr die kennt. Beide zeigen deutlich, dass es sehr schnell sehr komplex wird, auch bei einfachen Organismen. Gruß --Succu (talk) 09:47, 27 March 2015 (UTC)[reply]
Das DELTA-Modell ist in der Tat ziemlich interessant, daran könnte man sicher gut anknüpfen. Die Frage allerdings, ob es schnell komplex wird, hat auch viel mit der Frage zu tun, ob man direkt ein geschlossenes, voll ausgebautes Modelle entwickeln will, dass auch gleich "name: subterranean tuber storage parenchyma" definiert oder im Modellprojekt sehr rudimentär zu denken. Und da es ja erst mal um sehr übersichtliche Formate geht, wird man doch kaum so schnell auf Probleme stoßen, oder? Gruß, Denis Barthel (talk) 10:25, 27 March 2015 (UTC)[reply]
Gute Grundlage: http://delta-intkey.com/www/data.htm Denis Barthel (talk) 10:30, 27 March 2015 (UTC)[reply]
Das Delta-Format ist übrigens ein TDWG Standard. Bei GrassBase (Character List) kann man sehen wie es funktioniert. Das Delta-Format sollte durch ein Structure of Descriptive Data (SSD) genanntes XML-Format abgelöst werden. Gregor Hagedorn dürfte sicher mehr zum aktuellen Stand wissen. Gruß --Succu (talk) 11:41, 27 March 2015 (UTC)[reply]
Hi, ja! :-) DELTA ist ein älterer Standard, SDD ein darüber hinaus erweitertes xml-Schema das wir bei TDWG standardisiert haben und dass in etlichen Anwendungen für Traits/beschreibende Daten (DiversityDescriptions, XPER2/XPER3, Lucid, Scratchpads, etc.) zum Einsatz kommt. Und die Ontologien werden die Zukunft sein. Das Hauptproblem ist m.E. Standards, sondern der Versuch der Nutzer und Datenersteller die Kontrolle über die erzeugten Daten zu behalten. GrassBase ist klasse, aber man darf es nicht selber nutzen (z.B. für Deutschland in http://offene-naturfuehrer.de), der Autor ist einverstanden es zu teilen, aber Kew will es alleine kontrollieren. XPer und viele der mit dem von mir programmierten DiversityDescriptions erstellten Daten sind entweder gar nicht oder nur unter der nicht wirklich nutzbaren CC Non-commercial erhältlich. Das ist zum Teil verständlich, wenn man als Wissenschaftler 2 Jahre für die Erstellung eine wirklich guten Datenmatrix verwendet hat, hofft man immer noch in Zukunft damit noch weitere Publikationen erstellen zu können. Zur Not endlich nach der Pensionierung :-). Die DBU und BMBF haben übrigens auch Millionen ausgegeben, um Bestimmungs-Datensätze zu erstellen, die unverfügbar in der Schublade verschwunden sind (was m.E. völlig unverständlich ist!). -- Wir brauchen Motivation, dass das Teilen solcher Daten normal wird. Wikidata nimmt in vieler Hinsicht genau die Prinzipien von SDD auf und ist im Prinzip wunderbar als Grundlage geeignet. Ich bin sehr interessiert etwas in Richtung auf "Interessantes über Pflanzen, Tiere, Pilze" und "Bestimmungsmerkmale" zu unternehmen! --G.Hagedorn (talk) 09:42, 28 March 2015 (UTC)[reply]
Danke Gregor. Ein Satz von „ausgewählten Eigenschaften” ist nur dann erfolgreich, wenn der auch verwendet wird, Denis. Für ein paar ausgewählte Pilz-Eigenschaften konnte sich bisher niemand erwärmen. --Succu (talk) 21:07, 28 March 2015 (UTC)[reply]
Ehrlich gestanden denke ich im Moment, dass wir einen Kick-Off bräuchten, in dem wir uns über das Ziel und die Methoden konzentrierter verständigen könnten. Meines Wissens sind alle bisherigen Diskutanden ansässig in Berlin, mit Ausnahme von Achim, bei Daniel weiss ich es nicht genau. Wenn ihr Lust habt, dann könnten wir uns bei Gelegenheit ja am Tempelhofer Ufer einmal treffen und die Dinge durchsprechen? Wie seht ihr das, Gregor, Daniel, Succu, Achim? Denis Barthel (talk) 21:29, 28 March 2015 (UTC)[reply]
Gern, nur was genau wollen wir „Lostreten”? --Succu (talk) 22:37, 28 March 2015 (UTC)[reply]
Ehrlich gesagt - ich verstehe deine Frage nicht, Succu. Es gibt zwei Zieloptionen, die im Raum stehen, verschiedene Anmerkungen und Hinweise zu den Methoden und den Vorschlag, sich "über das Ziel und die Methoden konzentrierter [zu] verständigen". In wie fern ist ein "Loszutretendes" fehlend? Denis Barthel (talk) 06:41, 1 April 2015 (UTC) 06:31, 1 April 2015 (UTC)[reply]

Umsetzung aus Entwicklersicht

[edit]

Hey :)

Ich habe gerade mit Abraham gesprochen und es scheint Möglichkeiten zu geben wie wir das umsetzen können. Was wir als nächstes bräuchten wäre weitere Definition des Ziels. Wir können das über zwei Wege machen: 1) ihr macht Mockups wie es eurer Meinung nach aussehen soll. Die müssen absolut kein perfektes Design haben. Es geht mehr um die Komponenten die ihr gern hättet etc. 2) Wir treffen uns in der Geschäftsstelle in Berlin und wir machen das zusammen. Das ganze würde dann als Grundlage dienen das weiter zu verfeinern und für die Entwicklung aufzuteilen. --Lydia Pintscher (WMDE) (talk) 18:44, 31 March 2015 (UTC)[reply]

Ein paar lose Gedanken dazu, die mir gerade durch den Kopf schwirren:

  • Voraussetzung: Artikel mit Rotlink muß selbst ein Taxon beschreiben (P31=Taxon), sonst ist die sichere Zuordnung des wiss. Names (P225) nicht möglich (evtl. trotzdem problematisch: Bestäuber in einem Planzenartikel o.ä.)
    • wiss. Namen unter dem Rotlink bestimmen
    • hat WD ein Datenobjekt dazu? Erfordert das Abfragen von P225, gegenwärtig nur mit WDQ möglich
    • falls ja, Auflösen von Mehrdeutigkeiten: gleicher Name verschiedene Reiche, Ränge
    • => Auslesen des ermittelten Datenobjektes und der mit ihm verbundenen Datenobjekte

Für den erweiterten Vorschlag sind m.E. noch folgende Dinge relevant:

  • dimensionsbehafteter Datentyp für Zahlen fehlt noch (z.B. für Längenangaben)
  • es ist (mir) unklar wie damit asymmetrische Wertebereiche abgebildet werden können (von ... bis)
  • wie können Anmerkung zu diesen Werten angegeben werden (z.B. selten)
  • wie werden mehrere Angaben zu einer Eigenschaft imterpretiert (und/oder-Verküpfung)
  • ggf. müßte die gleiche Eigenschaft für unterschiedliche Organismengruppen verschieden eingeschränkt werden

Die Liste darf gern erweitert oder kommentiert werden. Gruß --Succu (talk) 09:32, 1 April 2015 (UTC)[reply]

Im Prinzip wissen wird aktuell ja vor allem, dass wir alle etwas unterschiedliche Ziele haben. Meine Grundidee war dabei wahrscheinlich die einfachste Variante, die sich an den Botikel von Lsjbot sowie dem Reasonator als Platzhalter orientiert. Ich würde mir also als Minimalversion einen Platzhalter (keinen echten Artikel!!) vorstellen, der ausgewählte properties aus den Zieldatensätzen herauslesen sollte. Für eine Tierart würde ich mir als Minimalversion folgendes wünschen (am Beispiel von Hyosciurus heinrichi (Q308680)):


Taxobox mit 6 Ebenen Erstbeschreiber, Jahr, Bild, Verbreitungskarte
Bezeichnung (wissenschaftlicher Name) ist eine taxonomischer Rang der übergeordnetes Taxon (wissenschaftlicher Name übergeordnetes Taxon).

(Achtung: Dies ist ein automatisch erzeugter Platzhalter aus den Daten von ->WikiData. Wenn du einen Artikel zu diesem Taxon schreiben möchtest, klicke ->hier))

Hinzu kommen könnten optional Sätze wie "Es wurde esrtbeschrieben von ... & .... in Jahr ....", "Es ist endemisch in ....", "Es wird von der IUCN als .... eingestuft.", Es ist benannt nach ....". Außerdem können ausgewählte Links hinzugenommen werden (IUCN, EOL, MSW).


Eine Realisierbarkeit des erweiterten Vorschlags sehe ich aktuell noch nicht - wenn er gar dazu führen sollte, dass der Bot echte Artikel anlegt wäre ich strikt gegen eine Umsetzung. Sinnvoll fände ich dagegen, wenn eine Artikelanlage aus dem Platzhalter heraus dem Autoren bereits ein Basisskelett aus Taxobox, Einleitungssatz und Kategorien liefert, das erweitert werden kann (zugleich aber auch davor warnen sollte, dieses einfach ohne Erweiterung als Artikel abzuspeichern). -- Achim Raschka (talk) 11:55, 1 April 2015 (UTC)[reply]

Das entspräche in etwa der von Felix Reimann entwickelten Wikidata-Taxobox. Vllt. verbessert durch einen bessen Abschnitt für die Einzelnachweise, um zum Beispiel die Erstbeschreibung ordentlich belegen zu können, sowie erweitert durch knappe Sätze. Wenn diese Eigenschaft erstellt ist könnten auch der landessprachliche Name verwendet werden. Eine weitere zusätzliche Information wäre das natürliche Verbreitungsgebiet. Aber da fehlt es (mir) noch an einer überzeugenden Idee, wie das umgesetzt werden sollte.
Realisiert als Mouseover-Popup? Eine Frage ist, wieviel Platz darf dieses Popup einnehmen (mobile Geräte)? Auch die Mehrsprachigkeit ließe sich mit einem solchen Minimal-Projekt testen.
Bezüglich der von Denis ins Gespräch gebrachten Variante wäre es schön, wenn wir die aktiv konzeptionell weiterverfolgen könnten. Gruß --Succu (talk) 12:23, 1 April 2015 (UTC)[reply]

Als kurzes Lebenszeichen zwischendurch: Ich habe das Thema mal auf die Agenda eines potenziellen Arbeitstreffens der Redaktion Biologie der deutschsprachigen WP gesetzt, zu dem natürlich auch WikiData'ler und Wikispecies'ler (@Franz Xaver:) gern gesehen sind: [3] - einem Gespräch bin ich nicht abgeneigt, nur wird es tatsächlich schwer, vor dem Sommer nach Berlin zu kommen. Gruß -- Achim Raschka (talk) 13:38, 22 April 2015 (UTC)[reply]