Logboek
Mijn dagelijkse notities in relatie tot mijn interesses en werk: een mix van hoger onderwijs, neurodiversiteit, inclusie, studiesucces, data science, AI, Machine Learning en coderen in R.
Juli
Zondag | 02-07-2023
- Tidyverse - Using a Data Dictionary to Recode Columns with dplyr. Blog over het aanpassen van kolomnamen en waarden met tidyverse.
Juni
Donderdag | 08-06-2023
De Staat van De Haagse: De afgelopen weken gewerkt aan een onderzoeksprogramma voor onderzoek naar kansengelijkheid aan De Haagse Hogeschool
Databases:
dm
- package om verschillende tabellen in R eenvoudiger met elkaar te verbinden en deze verbindingen te visualiseren.
File handling:
purrr::walk()
this way - Voorbeeld voor het gebruik van purrr om bestanden te maken.Benchmarking en performance: het
tictoc
package en bench package om de tijd voor en na een stuk code te meten. Zie ook Writing performant code with tidy tools.
Mei
Vrijdag | 19-06-2023
- Visualisaties: Data Visualization Cheat Sheets – best practices in visualisaties, waaronder geografische kaarten.
Zondag | 14-05-2023
- Visualisaties: ggflowchart voor het maken van flowcharts in ggplot.
Woensdag | 10-05-2023
- Visualisaties: cord diagrammen met behulp van het circlize package. Hierover is een heel boek geschreven door de developer, Zuguang Gu.
Dinsdag | 09-05-2023
- Visualisaties: netwerk analyses met ggnet.
April 2023
Maandag | 24-04-2023
- GIS:
- Afgelopen week veel bezig geweest met GIS mogelijkheden. Ik werk aan een handleiding voor het maken van geografische analyses op studiedata.
- Tutorial voor het maken van landkaarten van Manuel Teodoro Tenango. Maakt slim gebruik van tekstuele functies.
- Markdown: Daarnaast de afgelopen twee weken veel gewerkt aan het genereren van rapporten met behulp van markdown en pandoc. Deze vul ik met een serie analyses in ggplot op instroomdata.
- R: Mooie nieuwe functionaliteit in
R 4.3.0
voor het doorgeven van waarden in een pipe. Deze kunnen geplaatst worden naar een andere positie dan de eerste via een underscore.
Zondag | 16-04-2023
- Visualisaties: mooie introductie op ggplot - Data Visualization with ggplot2 van Ryan Safner
Donderdag | 13-04-2023
- Visualisaties: Visualizing Three or More Numeric Variables - overzichtspagina met manieren om de correlatie tussen 3 variabelen weer te geven.
Zondag | 09-04-2023
- Visualisaties: Cleveland Dot Plots - een aantal mooie voorbeelden van cleveland dot plots.
Zaterdag | 08-04-2023
- Visualisaties:
ggfittext package - A ‘ggplot2’ extension to fit text into a box by growing, shrinking or wrapping the text.
streamgraph - streamgraph is an htmlwidget JavaScript/D3 chart library.
Dinsdag | 04-04-2023
Gelijke kansen:
- Mooie column van Wilma Vollenbergh: ‘Gelijke kansen’ verkleinen de kloof tussen de meer en minder bedeelden niet
- Peter Hein van Mulligen - Met ons gaat het nog altijd goed
Zondag | 02-04-2023
- Change: The Behaviour Change Wheel
Maart 2023
Vrijdag | 31-03-2023
- AI:
- Maakt kunstmatige intelligentie mensen werkloos - mooie dialoog tussen Gert-Jan van der Heiden en Bag Haring over de impact van AI op het werkveld op basis van eerdere technologische ontwikkelingen en mensbeelden
- Is kunstmatige intelligentie een bedreiging voor ons godsbeeld - idemdito tussen Alain Verheij en Arnold Huijgen maar dan over het godsbeeld dat we hebben
- Corona: Veel havo 4-leerlingen haken af: ‘Het was alsof de leraren opeens een andere taal spraken’ - interessant artikel over de dynamiek onder havo-4 leerlingen die tijdens hun eerste jaren op school thuis zaten en doorstromen naar het mbo.
- Visualisaties: Cleveland Dot Plots - voorbeeld voor een zo goed mogelijke en rustige weergave van cleveland dot plots
Dinsdag | 28-03-2023
- Learning R: lesmodules voor de basisprincipes van R van José Carlos Soage.
- Visualisaties:
- Lesmodules voor gpplot2 eveneens van José Carlos Soage.
- CalendR package voor het visualiseren van kalenders.
- Indeling van grafieken van de financial times.
- ChatGPT: ChatGPT Cheat Sheet for Data Science - omvangrijk document met voorbeelden om code te genereren met behulp van ChatGPT + cheatsheet.
Maandag | 27-03-2023
- ChatGPT - Indrukkende video van een mogelijke toepassing voor docenten: Using ChatGPT to grade essays and give detailed feedback: For Teachers
Vrijdag | 24-03-2023
- Autisme:
- Impact van Covid op schoolgaande kinderen met autisme - Simpson, K., & Adams, D. (2022). Brief Report: Covid Restrictions had Positive and Negative Impacts on Schooling for Students on the Autism Spectrum. Journal of Autism and Developmental Disorders, 1–7. doi: 10.1007/s10803-022-05451-z - Geeft een gemengd beeld van positieve en negatieve ervaringen van ouders met schoolgaande kinderen met autisme. Interessant is de opmerking over de gemiste kans om het ‘hidden curriculum’, het totaal aan impliciete sociale regels en normen in de schoolomgeving (Reicher, 2020), te leren kennen.
- Coding:
- R renv: How to Manage Dependencies in R Projects Easily - R
renv
is here to create a separate, reproducible environment that you and your coworkers can use, hassle-free. Handige uitleg van de werking vanrenv
. - R data.validator – How to Create Automated Data Quality Reports in R and Shiny - artikel over het aanleggen van een kwaliteitsrapport in r met behulp van het
data.validator
package.
- R renv: How to Manage Dependencies in R Projects Easily - R
- Statistiek:
- TidyDensity - package om verschillende analyses eenvoudig te visualiseren van verschillende distributies (evt. met simulaties): density, quantielen, probability, qq plot.
- TidyDensity - package om verschillende analyses eenvoudig te visualiseren van verschillende distributies (evt. met simulaties): density, quantielen, probability, qq plot.
Donderdag | 23-03-2023
Visualisaties:
- ggbump - package om bumpcharts te maken in ggplot
- ggbump - package om bumpcharts te maken in ggplot
Zondag | 19-03-2023
- Word: docxtractr package - Extract Data Tables and Comments from ‘Microsoft’ ‘Word’ Documents. Zie ook Automating checks of *handcrafted* Word tables with {docxtractr} van Bruno Rodrigues.
- Code:
Building reproducible analytical pipelines with R vanBruno Rodrigues. Interessant boek over herhaalbare analyses met R.
withr package: A set of functions to run code with safely and temporarily modified global state, withr makes working with the global state, i.e. side effects, less error-prone.
flextable: online boek over het flextable package.
- AI:
Can society adjust at the speed of artificial intelligence? - Interview met Holden Karnofsky over de snelheid van AI in relatie tot wetenschap en ontwikkeling van technologie.
Hij verwijst naar The “most important century” blog post series. Een nogal extreme serie blogposts over de snelheid waarmee technologie zich ontwikkelt, bezien vanuit de geschiedenis van de hele mensheid.
Zaterdag | 18-03-2023
- Autisme: Prachtige column van schrijver en dichter Erik Jan Harmens in het NRC. Leeftijd: 49. Diagnose: autisme “De meeste mensen zijn als huizen. Van steen, met hier en daar een raam. Mensen zoals ik zijn als kassen. Rondom ons enkel glas. We nemen alles waar, ook hoe anderen ons waarnemen. Daarop passen we ons gedrag aan, net zolang tot het matcht.”
Woensdag | 15-03-2023
- Scraping: Tableau Scraper - Python library to scrape data from Tableau viz
- Quarto: Interessante features van de nieuwe release (1.3):
- Multi-format Publishing,Automatically link to other formats in HTML documents - nieuwe mogelijkheid om in 1 bestand meerdere vormen van output aan te bieden.
- Confluence publishing
- Article Grid Customization
Dinsdag | 14-03-2023
Maandag | 13-03-2023
- Coding: formatR package van Yihui Xie- voor het automatisch aanpassen van code op basis van een coding template.
- Visualisaties: verschillende mogelijkheden voor bulletcharts - Bullet Chart Variants in R - Efficient display of several measures at once.
- Datamanipulatie: slider package om bijvoorbeeld rolling averages te maken.
- Tabellen: gt package voor onder meer gegroepeerde gegevens.
Zondag | 12-03-2023
- Coding
- Easily re-using self-written functions: the power of gist + code snippet duo - methode van Ilya Kashnitsky om eenvoudige functies te bewaren en aan te roepen met behulp van github.
- Visualisaties - faceting:
- Save space in faceted plots - artikel over variabele breedte bij faceting.
- Show all data in the background of your faceted ggplot - voorbeeld van faceting van Ilya Kashnitsky [code].
- Gegroepeerde dotplots: Dotplot – the single most useful yet largely neglected dataviz type [code]
- Rapportages:
- Render parameterized reports with Quarto - tutorial van John Paul Helveston over Quarto rapportages met variable input
- Onderwijsstromen:
- Een prachtig analyse van Paul van de Molen van Cito over Leerlingstromen in bovenbouw voortgezet onderwijs in 2021 op basis van het CBS.
- Hieraan gelieerd: Molen, P. V. der, & Keuning, J. (2023). Steeds meer zesjes. Examens, 2023(1), 42–47. Naar aanleiding van de column van Ionica Smeets: Is het beter om zessen te halen op de havo dan achten op het vmbo? in de Volkskrant van 10 maart 2023.
- Een prachtig analyse van Paul van de Molen van Cito over Leerlingstromen in bovenbouw voortgezet onderwijs in 2021 op basis van het CBS.
Zaterdag | 11-03-2023
- Methode:
- The Effect: An Introduction to Research Design and Causality van Nick Huntington-Klein aangeschaft, met dank aan de review van Xi An. De introductie van het boek geeft al direct een aantal interessante packages (hieronder).
- The Effect: An Introduction to Research Design and Causality van Nick Huntington-Klein aangeschaft, met dank aan de review van Xi An. De introductie van het boek geeft al direct een aantal interessante packages (hieronder).
- Visualisaties:
- Cairo package: voor het embedden van fonts in afbeeldingen van ggplot - zie Working with R, Cairo graphics, custom fonts, and ggplot.
- ggpubr: ‘ggplot2’ Based Publication Ready Plots
- Statistics:
- Modelsummary package: voor het maken van standaard output voor modellen in verschillende formats (html, docx, tex, markdown, png, etc.)
- ShinyDag: shinyDAG is a web application that uses R and LaTeX to create publication-quality images of directed acyclic graphs (DAGs).
- Data wrangling:
- vtable package: package om automatisch een beschrijving te maken van een dataframe. “The
vtable
package serves the purpose of outputting automatic variable documentation that can be easily viewed while continuing to work with data.”
- vtable package: package om automatisch een beschrijving te maken van een dataframe. “The
Donderdag | 08-03-2023
- Trends: Akcaova, G. (2023). SURF Tech Trends 2023 (pp. 1–87). Doorgenomen.
Dinsdag | 07-03-2023
- Visualisaties: Chart Guide. Aanvulling op onderstaande visualisatie ecosystement.
Maandag | 06-03-2023
- AI in hoger onderwijs: Walker, J., & Baten, D. (2022). Promises of AI in Education, Discussing the impact of AI systems in educational practices. SURF. - gelezen.
Zondag | 05-03-2023
- MS Office: Een paar voorbeelden van automatisering van MS Office
- Make Microsoft Word Reports with R + officedown van Matt Dancho.
- Up and running with officedown van Allison Hill.
- Officeverse van David Gohel (auteur OfficeR package; zie ook Why R? Webinar 039)
- Crafting a PowerPoint Presentation with R van Len Kiefer
- Fonts: gdtools - package voor “Utilities for Graphical Rendering and Fonts Management” voor Google Fonts. Misschien ook nuttig om de breedte/hoogte van annotaties te berekenen.
- Simulatie: TidyDensity - package om simulatiedata te genereren voor bijv. normaal verdelingen (zie het vignette).
Zaterdag | 04-03-2023
- ChatGPT / Learning Technology - Mooi essay in de Trouw van Cynthia Liem: ChatGPT berooft ons van waardevol denkwerk. Wanneer zijn we gestopt met ergens moeite voor doen? Voor mij de essentie: “Is er niet te weinig waardering voor de individuele worsteling om tot iets te komen en is er niet te veel waardering voor de uitkomst?”
Vrijdag | 03-03-2023
- Learning Technology:
- Hack Education - The History of the Future of Education Technology van Audrey Waters
- The Monsters of Education Technology - eerste en tweede hoofdstuk gelezen over de intentie van de eerste edtech machines. “The refrain of this talk: new
technologies are easy to develop; new behaviors and new cultures are not.”
- Visualisaties:
- Hands-On Data Visualization Interactive Storytelling from Spreadsheets to Code van Jack Dougherty en Ilya Ilyankou
- Hands-On Data Visualization Interactive Storytelling from Spreadsheets to Code van Jack Dougherty en Ilya Ilyankou
Donderdag | 02-03-2023
- Visualisaties:
- Alternatieve dumbbell plot van Gustavo Varela-Alvarenga
- Indrukwekkende weergave van het verloop van inschrijvingen op universiteiten over de tijd van Tobias Stalder (tutorial - extended dumbbell plot):
Woensdag | 01-03-2023
- Visualisaties:
Sunburst plots - Pie-Donut Chart Combining a pie and donut chart - tutorial over een geneste donutchart van Rosane Rech. Geeft een interessant effect. Zie ook Sunburst Charts in R en het sunburst package en Sunburst op from Data to Viz. Is een circulaire parallel van een treemap/dendrogram.
Step-by-Step Barplots for One Factor in R - ggplot, error bars, compact letter display, Tukey’s test
Februari 2023
Dinsdag | 28-02-2023
Visualisaties:
- Fonts:
- Google fonts - overzicht van Google fonts die te installeren zijn in R.
- Interessante visualisatie ecosystemen:
- Plotly / Dash - low code oplossing; zie bijvoorbeeld de financiële rapportages.
- Datawrapper - no code oplossing
- From Data to Viz - high code oplossing; zie hun academy over de mogelijkheden.
- Best practices voor visualisaties van Lisa Charlotte Muth:
Maandag | 27-02-2023
- Studiesucces/studentsucces: Kees Boele: “Het is tijd om te vertragen”- Interview van Sicco Knegt met Kees Boele over het belang van vertragen.
- Eindexamens: Eindexamens wis- en natuurkunde zijn steeds gemakkelijker - onderzoek van Loek Zonnenberg en Paul Rutten naar de inhoud van wis- en natuurkunde (Toetsen getoetst).
- Visualisaties:
Macroeconomic Determinants of Migration. A Comparative Analysis For Old vs New European Member States - Interessante manier van het analyseren en visualiseren van migratie door Smaranda Cimpoeru.
Give me an adequate correlation: assessing relationships in percentage (or proportional) data door Karel Hron en Peter Filzmoser - methode voor visualisatie van gecorreleerde data, uitgedrukt in percentages met behulp van het robCompositions: Compositional Data Analysis package.
Zondag | 26-02-2023
- AI: Generative AI Won’t Revolutionize Search — Yet: artikel van HBR over vertical Large Language Models (LLM). Er zijn 5 vragen die we moeten stellen om te bepalen of een LLM geschikt is voor een domein. TB: Vooralsnog maakt dit dat onderwijsbeleid en -begeleiding dit niet zijn, maar onderwijs zelf inhoudelijk mogelijk wel (toevoegingen van mijn hand):
- Vereist de taak of het proces traditioneel uitgebreid onderzoek of diepgaande vakkennis? - Ja, voor Learning Analytics (LA) en onderwijs
- Is het resultaat van de taak samengestelde informatie, inzicht of kennis waarmee de gebruiker actie kan ondernemen of een beslissing kan nemen? - Ja, voor LA en onderwijs
- Bestaan er voldoende historische technische of feitelijke gegevens om de AI op te leiden tot een expert op het verticale zoekgebied? - Nee, voor LA; mogelijk Ja, voor onderwijs
- Kan het LLM met een passende frequentie worden getraind met nieuwe informatie, zodat het actuele informatie verstrekt? - Ja, maar voor LA complex in trage systemen zoals het hoger onderwijs, wel mogelijk voor uitgevers op onderwijs
- Is het legaal en ethisch verantwoord dat de AI leert van de opvattingen, aannames en informatie in de trainingsgegevens en deze herhaalt en bestendigt? - Dit is nog onzeker voor LA en vraagt om nader onderzoek; dit geldt ook voor onderwijs
- Gelijke kansen:
- Het onderwijssysteem moet radicaal anders - Interview in De Groene Amsterdammer met Maxe de Rijk, die een boek schreef over haar vmbo-kansklas.
- Lees dit. Je bent toch niet dom?! - Artikel van Johannes Visser in De Correspondent over meritocratie in het onderwijs.
- Een rechtvaardige wereld begint níét bij gelijke kansen in het onderwijs - Artikel van Johannes Visser in De Correspondent over gelijke kansen en onderwijsexpansie in het onderwijs: “Socioloog Louise Elffers noemt onderwijsbeleid gericht op gelijke kansen daarom ‘een slang die zichzelf in de staart bijt’. Die slang ziet er zo uit: gelijkekansenbeleid -> diploma-inflatie -> onderwijsexpansie -> ongelijke kansen -> meer gelijkekansenbeleid -> diploma-inflatie -> onderwijsexpansie -> ongelijke kansen.”.
- Onderwijsvernieuwing: Van Gool, R. (2019, May 8). Futuristische retoriek of evidence-based? 19–20(2019). - Interessant artikel in De Groene Amsterdammerover onderwijsvernieuwing in relatie tot de begrippen ‘evidence-based’ en ‘evidence-informed’. “Van ‘kennis centraal’ tot ‘21st-century skills’: discussies over onderwijsmethoden worden zelden beslecht. Hoewel sommige innovaties hun vruchten zeker afwerpen, blijft de doorstroom van wetenschap naar praktijk weerbarstig.”
- Data literacy: Datacamp. (2023). The State of Data Literacy 2023 (p. 1-59). Interessant rapport van Datacamp met trends in Data Literacy; helaas wel achter een marketing wall en alleen met resultaten uit de UK en US. Ook nuttig is het data competency framework dat in het rapport wordt genoemd.
Zaterdag | 25-02-2023
- AI: Generative AI Is Coming For the Lawyers - artikel in Wired over Harvey, een AI tool die het werk van advocaten automatiseert voor onderzoek en het schrijven van documenten (gebaseerd op OpenAI).
- Onderwijsmethodiek: Hoe een nieuwe onderwijsmethode onrust naar Fontys bracht: ‘Er wordt gevloekt en getierd, er is zoveel stress’ - stuk in de VK over HILL methodiek die is ingevoerd by Fontys.
- Mobiele telefonie: Wel of geen telefoon in de klas? ‘Ik lever hem liever in zodat ik verplicht ben op te letten’ - artikel in het Parool met verschillende invalshoeken.
- Studiesucces:
- Stop met het selectiecircus, zegt Klaas Visser zelf - reactie van Klaas Visser op de recente ontwikkelingen in loting.
- Bij technische opleidingen voorspellen vwo-cijfers kans op studiesucces - onderzoek toont correlatie aan tussen Wiskunde B en studiesucces
- R coding: Tricks in R to Boost Your Productivity - overzicht van een handige inrichting van R-studio om effectiever te programmeren van Wie Lin.
- Visualisaties: indrukwekkende referentiesite van Christian Burkhart over ggplot ggplot2tor.com
- Zie in het bijzonder de educational apps: aesthetics finder, scales finder, themes finder en cheat sheets.
- How to make any plot look better: uitleg over het inrichten van basis themes.
- Visualizing Sampling Distributions: uitleg over het visualiseren van distributies.
- Runtastic - First Tutorial - Visualizing accumulated kilometers: leuke uitleg van cumulatieve plots.
- AI: Mooie special vandaag over AI in het NRC:
- De volgende Einstein kan een computer zijn maar hoe lang duurt dat nog van Bennie Mols over de ontwikkeling van wetenschappelijke ontdekkingen die AI maakt. - [IR]
- AI zit verblufte betoverde én ontnuchterde filosofen op de hielenvan Sjoerd de Jong. - [IR]
Vrijdag | 24-02-2023
- Toetsen en neurodiversiteit: Vader en docent maakt zich hard tegen schoolstress. ‘Leerlingen willen wel, maar weten niet hoe’
- R: Uitleg van evaluatie van variabelen binnen functies - Tidy eval helpers.
- Visualisaties:
Van invasie tot vechten om elke meter: de oorlog in Oekraïne in tien sleutelmomenten: ontwikkeling van de oorlog met een indrukwekkend filmpje van de kaart van Oekraïne door het NRC.
ggforce: package met aanvullingen op ggplot voor complexere grafieken. Met name de annotatiemogelijkheden lijken interessant.
Multiscales: package om een kleurenlegenda te maken met 2 dimensies, bijv. voorspeld stemgedrag en mate van onzekerheid. Zou bijvoorbeeld gebruikt kunnen worden voor de mate van zekerheid over uitval in een opleiding in verschillende onderwijsperioden.
Cowplot: package om plots op een grid met elkaar uit te lijnen (zowel fysiek, als op assen); andere mogelijkheden: een dual axis plot, inset afbeeldingen, gedeelde titels, gedeelde legenda’s.
Fundamentals of Data Visualization - gids van Claus Wilke voor verschillende soorten visulisaties in ggplot met do’s en don’ts (code voor een aantal voorbeelden).
Donderdag | 23-02-2023
- Evidence based / evidence informed:
How can I become a numbers person. Mooi interview van Neil Richards met Selena Frisk over haar boek “I’m not a numbers person: How to make good decisions in a data-rich world”. Interessante beeldspraak over data informed versus data driven (vergelijking met een paard op een racebaan met en zonder oogkleppen).
“When a horse wears blinkers, the blinkers are beside their eyes and the idea is that it shuts out the context and what’s happening around them so they don’t get distracted. The idea is that they’re focusing on the finish line and they’re trying to get there; that’s their focus. But the position that they finish in the race is completely dependent on the stuff that’s happening around them.For me that’s what data driven is, and data informed is when the blinkers are off.
We look at the numbers, we triangulate the data, so we’re making decisions across a number of different sets of information. We’re looking at elements like point in time and longitudinal. We’re considering the context of–it might be the financial climate, it might be geography, it might be seasonal, or it might be the strengths of the team that you’re working with. Any of those other contextual factors–some of which you could argue fits into the qualitative data piece as well– that contextual understanding to inform the decisions that you’re making alongside the numbers. We’ve got to keep humans in the analysis – in the decisions.”
Uit haar boek vind ik dit ook interessant model.
Verder een interessant verschil tussen data literacy en data fluency.
- Visualisaties: Is white space always your friend? Mooie blogpost over de waarde van annotaties in grafieken van Neil Richards.
Woensdag | 22-02-2023
- Text mining: Text mining in R for the social sciences and digital humanities. Verschillende methoden met tutorials om text mining toe te passen in de sociale wetenschappen.
- Visualisaties:
Chart Chooser - hulpmiddel voor het kiezen van een visualisatie afhankelijk van het soort data. Deze website bevat een toelichting en uitwerking van deze charts in Tableau.
From data to viz: Gaat een stuk verder dan het bovenstaande model, met voorbeelden van projecten en data.
- Presentaties: Extreme Presentation Method - methode voor aansprekende, actiegerichte presentaties.
- Visualisaties: Weissgerber, T. L., Milic, N. M., Winham, S. J. & Garovic, V. D. Beyond Bar and Line Graphs: Time for a New Data Presentation Paradigm. Plos Biol 13, e1002128 (2015). Studie naar alternatieve weergave van onderzoeksdata (met name bij kleinere aantallen en paired findings). Cédric Scherer heeft op deze figuren een aantal suggesties voor verbetering gemaakt.
Dinsdag | 21-02-2023
- Visualisaties: Data Communication - Heel interessante presentatie over best practices in visualisaties en hoe grafieken opinie kunnen beïnvloeden van Cédric Scherer. Zie in het bijzonder pagina’s 39 en volgende.
Maandag | 20-02-2023
- Autisme: Flegenheimer, C., & Scherf, K. S. (2022). College as a Developmental Context for Emerging Adulthood in Autism: A Systematic Review of What We Know and Where We Go from Here. Journal of Autism and Developmental Disorders, 52(5), 2075–2097. https://doi.org/10.1007/s10803-021-05088-4. Overzichtsstudie van studiesucces en interventies in vergelijking met neurotypische studenten. Goede aanknopingspunten voor vervolgonderzoek.
Zondag | 19-02-2023
- Visualisaties:
- Tableau en ggplot: Tableau color palettes voor ggplot - een uitleg over de kleurenpalettes voor Tableau voor ggplot
- BBC Cookbook - uitwerking van een cookbook voor ggplot van de BBC. Een prachtig voorbeeld van een systematische uitwerking van grafieken. Begonnen met een versie voor De HHs / het hoger onderwijs.
Zaterdag | 18-02-2023
- Dynamic reporting:
- Reproducible data reports with Quarto, Rhian Davies & Nicola Rennie (repo). Zie ook Automated Reporting op haar website (repo).
- Een voorbeeld van Posit met Pyhton dat ingaat op de pijplijn: Building a reporting infrastructure with Quarto, eventueel naar Word of Powerpoint.
- Een variabel voorbeeld: How to use Quarto for Parameterized Reporting. Maakt gebruik van Quarto parameters.
- Markdown: nameR package van Jumping Rivers om chuncks in Markdown automatisch een naam te geven.
- Code:
- Video van Riffomonas over het gebruik van verschillende soorten pipes van Magrittr: exposition pipe %$%(geeft data door), Tpipe %T>% (maakt tussentijdse output mogelijk, bijv. een plot of print statement), assignment pipe %<>% (update een bestaande variabele: iris$Sepal.Length %<>% sqrt).
- Video van Riffomonas over het gebruik van showtext en google.fonts: How to use a custom font in R with showtext and google fonts.
Vrijdag | 17-02-2023
- Publieke waarden: Sphere Transgression Watch - website met sferen en de invloed van Big Tech daarop.
- Visualisaties:
Werder gegaan met opbouw van ggplotkennis aan de hand van Graphic Design with ggplot2 (facets, scales en coordinate systems).
Fantastische werk van Nicola Rennie bekeken, data scientist bij Jumping Rivers.
Zie ook haar slides over Styling {ggplot2} graphics for accessibility.
Zie ook Writing Alt Text for Data Visualization van Amy Cesal.
Donderdag | 16-02-2023
- Visualisaties: verder gegaan met opbouw van ggplotkennis aan de hand van Graphic Design with ggplot2.
- Visualisaties: website met overzicht van ggplot2 extensies.
Maandag | 13-02-2023
- ADHD: Afgerond Faraone, S. V., Asherson, P., Banaschewski, T., Biederman, J., Buitelaar, J. K., Ramos-Quiroga, J. A., … Franke, B. (2015). Attention-deficit/hyperactivity disorder. Nature Reviews Disease Primers, 1(1), 15020. doi: 10.1038/nrdp.2015.20. Primer over ADHD.
- Onderwijsbeleid: Begonnen aan Copier, J. Tussen idealen en dwalingen. Verhalen over onderwijs. (Garant, 2022).
Zaterdag | 11-02-2023
- Graphs: The Trick That Solves Rubik’s Cubes and Breaks Ciphers (Meet in the Middle) - leuke uitleg van het oplossen van graphs aan de hand van een Rubik’s kubus.
- Leerstijlen: The Biggest Myth In Education - Video over het niet bestaan van leerstijlen. Gebruikte literatuur.
Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning styles: Concepts and evidence. Psychological science in the public interest, 9(3), 105-119. — https://ve42.co/Pashler2008
Willingham, D. T., Hughes, E. M., & Dobolyi, D. G. (2015). The scientific status of learning styles theories. Teaching of Psychology, 42(3), 266-271. — https://ve42.co/Willingham
Massa, L. J., & Mayer, R. E. (2006). Testing the ATI hypothesis: Should multimedia instruction accommodate verbalizer-visualizer cognitive style?. Learning and Individual Differences, 16(4), 321-335. — https://ve42.co/Massa2006
Riener, C., & Willingham, D. (2010). The myth of learning styles. Change: The magazine of higher learning, 42(5), 32-35.— https://ve42.co/Riener2010
Husmann, P. R., & O’Loughlin, V. D. (2019). Another nail in the coffin for learning styles? Disparities among undergraduate anatomy students’ study strategies, class performance, and reported VARK learning styles. Anatomical sciences education, 12(1), 6-19. — https://ve42.co/Husmann2019
Snider, V. E., & Roehl, R. (2007). Teachers’ beliefs about pedagogy and related issues. Psychology in the Schools, 44, 873–886. doi:10.1002/pits.20272 — https://ve42.co/Snider2007
Fleming, N., & Baume, D. (2006). Learning Styles Again: VARKing up the right tree!. Educational developments, 7(4), 4. — https://ve42.co/Fleming2006
Rogowsky, B. A., Calhoun, B. M., & Tallal, P. (2015). Matching learning style to instructional method: Effects on comprehension. Journal of educational psychology, 107(1), 64. — https://ve42.co/Rogowskyetal
Coffield, Frank; Moseley, David; Hall, Elaine; Ecclestone, Kathryn (2004). — https://ve42.co/Coffield2004
Furey, W. (2020). THE STUBBORN MYTH OF LEARNING STYLES. Education Next, 20(3), 8-13. — https://ve42.co/Furey2020
Dunn, R., Beaudry, J. S., & Klavas, A. (2002). Survey of research on learning styles. California Journal of Science Education II (2). — https://ve42.co/Dunn2002
Vrijdag | 10-02-2023
- Datastraat: Creating an R Project Directory - handig script om een basisproject op te starten.
Donderdag | 09-02-2023
- ADHD:
Begonnen aan Faraone, S. V., Asherson, P., Banaschewski, T., Biederman, J., Buitelaar, J. K., Ramos-Quiroga, J. A., … Franke, B. (2015). Attention-deficit/hyperactivity disorder. Nature Reviews Disease Primers, 1(1), 15020. doi: 10.1038/nrdp.2015.20. Primer over ADHD.
Eerste cartoon van een kind met ADHD: The story of Fidgety Phil (Duitsland, 1844).
Woensdag | 08-02-2023
CBS: CBS Urban Data Center/Den Haag. Sinds 2017 werken de gemeente Den Haag en het CBS samen in het CBS Urban Data Center/Den Haag. Het Urban Data Center heeft de volgende doelen:
Nóg beter gebruik te maken van beschikbare data over Den Haag, om effectiever beleid te kunnen maken dat beter past bij wat de stad nodig heeft. Vraagarticulatie en het toevoegen van maatschappelijke waarde spelen hierbij een belangrijke rol.
Het versterken van het datagedreven werken binnen de gemeente Den Haag.
Dinsdag | 07-02-2023
- Maps: Datacamp Interactive Maps with leaflet in R - hoofdstuk 2 en 3 gemaakt. Zie ook de oorspronkelijke website voor Leaflet: leafletjs.com.
Maandag | 06-02-2023
- Maps: Datacamp Interactive Maps with leaflet in R - hoofdstuk 1 gemaakt
Zaterdag | 04-02-2023
- Fairness: Hoofdstuk 2: When is automated decision making legitimate? van Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness in Machine Learning Limitations and Opportunities. fairmlbook.org. Retrieved from http://www.fairmlbook.org
Vrijdag | 03-02-2023
- Autisme: Abstract ingediend voor een posterpresentatie voor het Nationaal Autisme Congres op 17 maart 2023.
Donderdag | 02-02-2023
- Gelijke kansen: Begonnen aan Segeren, E. (Ed.). (2021). Gezichten van een onzeker bestaan. Raad voor Volksgezondheid & Samenleving.
- Gelijke kansen: 2 fascinerend artikelen over gelijke kansen.
- Geest, M. van der. (2020, October 2). Arme mensen gaan zes jaar eerder dood – waarom doen we daar niets aan? Retrieved February 2, 2023, from https://www.volkskrant.nl/cultuur-media/arme-mensen-gaan-zes-jaar-eerder-dood-waarom-doen-we-daar-niets-aan~b34e97d06/
- Jongers, T. ‘S. (2021, June 25). ’Als je met 10-0 achterstand begint, is hogerop komen geen klim op een ladder. Het is een tunnel waarin je moet blijven kruipen.’ Retrieved February 2, 2023, from https://www.volkskrant.nl/columns-opinie/als-je-met-10-0-achterstand-begint-is-hogerop-komen-geen-klim-op-een-ladder-het-is-een-tunnel-waarin-je-moet-blijven-kruipen~b41eb81b/
- Fairness: Introductie uitgelezen van Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness in Machine Learning Limitations and Opportunities. fairmlbook.org. Retrieved from http://www.fairmlbook.org.
Woensdag | 01-02-2023
- Fairness: Tutorial over Fairness in ML. Fairness, part 1 - Moritz Hardt - MLSS 2020, Tübingen
- Disparate treatment (procedurele gelijkheid) versus disparate impact (gelijke uitkomsten). Er zit spanning tussen deze 2: om de laatste te kunnen realiseren moet je onderscheid kunnen maken tussen groepen.
- Failure of fairness through unawareness. Kenmerken verwijderen lost unfairness niet op; het kan ze juist groter maken. Voorbeeld van 1 day delivery van Amazon in Boston. > idee: dit uitwerken aan de hand van kaarten van Den Haag.
- Wat kunnen we doen:
- Fairness criteria in classificatie toepassen
- Causale modellen van besluitvorming
- Dynamische modellen van socio-technische systemen
- Fairness: Begonnen aan Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness in Machine Learning Limitations and Opportunities. fairmlbook.org. Retrieved from http://www.fairmlbook.org. (Preface en introductie)
- ChatGPT: Osch, T. V. (2023, January 17). Van Eliza naar ChatGPT: de stormachtige ontwikkeling van taalmodellen. Retrieved February 1, 2023, from https://communities.surf.nl/artificial-intelligence/artikel/van-eliza-naar-chatgpt-de-stormachtige-ontwikkeling-van. Duidelijke uitleg van taalmodellen/transformers.
- AI in het onderwijs: Hooge, E., Leeuwen, M. V., Molenaar, I., & Bos, N. (2022). Inzet van intelligente technologie (pp. 1–75). Den Haag: Onderwijsraad. Retrieved from Onderwijsraad website: https://www.onderwijsraad.nl/publicaties/adviezen/2022/09/28/inzet-van-intelligente-technologie. AI wordt en actor in het onderwijs. Het verlicht, maar maakt de taak voor een docent ook complexer. Beschrijft goed de toegevoegde waarde van de docent. Een goede overzichtsstudie van voor- en nadelen en toepassingen in Nederland.
- Gelijke kansen: Podcast ‘Ieder Talent Telt’ beluisterd.
- Fairness: Gosiewska, A., Gacek, A., Lubon, P., & Biecek, P. (2019). SAFE ML: Surrogate Assisted Feature Extraction for Model Learning. arXiv. doi: 10.48550/arxiv.1902.11035. Doorgenomen nieuwe pagina toegevoegd aan projecten op basis van dit artikel.
Januari 2023
Dinsdag | 31-01-2023
- AI: Welcome to the Wet Hot AI Chatbot Summer - Verschil tussen aanpak OpenAI en Google in de aanpak van AI. Google gaat langzamer te werk om de impact van nieuwe technologie beter een plek te geven en te voorzien van ethische randvoorwaarden.
- ChatGPT: ChatGPT Is Making Universities Rethink Plagiarism
- Nieuw is dat er niet van een persoon is wordt gestolen/overgenomen, maar van een ding. Bestaand plagiaat beleid houdt daar nog geen rekening mee. Bij de komst van Wikipedia was er overigens ook de zorg dat dit een gamechanger zou zijn.
- “The world of higher education is playing a familiar game of catch-up, adjusting their rules, expectations, and perceptions as other professions adjust, too. The only difference now is that the internet can think for itself.” “In the midst of fundamental change in both the academic and technological spheres, universities are forced to reconsider their definitions of academic integrity to reasonably reflect the circumstances of society. The only problem is, society shows no stagnance.”
- “The tool’s popularization just calls for greater focus in evaluating the intent behind students’ violations. Warfield explains that students who turn in essays entirely produced by AI are categorically different from those who borrow from online tools without knowledge of standard citations.”
- Code: Tips for organising your R codeover het gebruik van een default theme voor een organisatie (zie paragraaf 3).
- Quarto: Building a reporting infrastructure with Quarto. Een toelichting op een reporting straat voor het publiceren van onderzoeksrapporten met behulp van Quarto.
- Quarto: Diagrams. Uitwerking van de mogelijkheden om diagrammen op te nemen in Quarto.
Balancing: Gebruik het package jointVIP om features te vinden die voor balancing van belang zijn.
Learning Analytics: Aldowah, H., Al-Samarraie, H., & Fauzy, W. M. (2019). Educational data mining and learning analytics for 21st century higher education: A review and synthesis. Telematics and Informatics, 37, 13–49. doi: 10.1016/j.tele.2019.01.007 - doorgenomen. Overzichtsartikel.
Studiesucces: Overzichtsartikel gelezen over de ontwikkeling van de termen student retention en student engagement.Tight, M. (2020). Student retention and engagement in higher education. Journal of Further and Higher Education, 44(5), 689–704. doi: 10.1080/0309877x.2019.1576860. Interessant voor InR.
Taxonomie: Naar aanleiding van Balanced Learning Design cursus de nieuwe versie van Bloom’s taxonomie doorgenomen. Wilson, L. O. (n.d.). Anderson and Krathwohl Bloom’s Taxonomy Revised.
Fairness: Jacobs, A. Z., & Wallach, H. (2021). Measurement and Fairness. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 375–385. doi: 10.1145/3442188.3445901. Interessant voor InR. Gaat in op soorten construct validity van metingen en de betekenis van het construct ‘fairness’. “Measure are more then a creation of society, they create society.”
Fairness: Deon framework verder doorgenomen: checklist en voorbeelden.
Maandag | 30-01-2023
- Visualisaties:
Barchart van Cédric Scherer: A Quick How-to on Labelling Bar Graphs in ggplot2. Nagebouwd in R-project.
Gender Pay Gap: Slope Plot (EU only)
- Visualisaties: ShowYourStripes. Indrukwekkende visualisatie van temperatuurverschillen in de afgelopen 125 jaar.
- Visualisaties: VIZ PALETTE - tool om effect van kleurenpallet op kleurenblindheid mee te testen; de kleuren van deze site blijken goed te werken voor alle vormen van kleurenblindheid.
Zondag | 29-01-2023
- Coding: Best practice in coding - gebruik van prefixes bij variabelen.
- For data: dta_
- Temporary files: tmp_
- Statistical summaries: sum_
- Models (such as lm models): mod_
- Custom functions: fn_
- Plots and visualization: plt_
- Lookup and referecne tables: lkp_
- Results and Analysis: rlt_
- Consistency and accuracy checks: chk_
- Website: Verder gewerkt aan de Over pagina.
- Slimme AI:
- Waarom ChatGPT geen racistische viespeuk is? Dankzij een stel Kenianen, voor twee dollar per uur. Over het wegwerken van negatieve sentimenten in data door microworker/ghost workers.
- Achter veel ‘kunstmatige intelligentie’ zit slechtbetaalde, onzichtbare en menselijke arbeid. Een eerder artikel over het corrigeren van beelden en geluiden + de oorsprong van de term “Mechanical Turk”.
- Fairness in werkgeverschap: Wie denkt er aan jou als je baas een algoritme is? - interview met Claartje ter Hoeven, onderzoekerster bij de EUR naar microworkers / ghost workers, over platformwerkers.
- Learning Design:
- Geweldige TED-talk van Sir Ken Robinson. Knelpunten in het onderwijsssyteem (No Child Left Behind).
- Drie zaken drijven ons leren:
1) diversity versus conformity (10% van de kinderen heeft ADD - they are ‘suffering’ from childhood). Kunt spreekt talenten aan, die anders niet aangeraakt worden (are left untouched).
2) curiosity (engine of achievement) versus compliance - docenten staan centraal (facility learning); het verschil in de taak en de achievement (de taak = engagement, het resultaat = de achievement) - testing is in de plaats gekomen van learning (zou ondersteunend moeten zijn); it should support learning, it should not obstruct it.
3) Human life is inherently creative (imagining alternatives and possibilities) versus standardisation.
Noodzaak: aandacht voor het individuele kind, investering in docenten, verantwoordelijk neerleggen bij de school om het gedaan te krijgen
- Visualisaties:
Interessante post om Quarto te gebruiken om afbeeldingen in het juiste format en dpi te maken.
Gebruik het geomtextpath package om teksten een speciale vorm te geven en voor Curved Text in Polar Co-ordinates.
Zaterdag | 28-01-2023
- Explainable AI: Shapley values:
Tree Explainer: Gebruik van Tree Explainer om blackbox modellen uit te leggen met behulp van Shalpey values. Lundberg, S. M., Erion, G., Chen, H., DeGrave, A., Prutkin, J. M., Nair, B., … Lee, S.-I. (2020). From local explanations to global understanding with explainable AI for trees. Nature Machine Intelligence, 2(1), 56–67. doi: 10.1038/s42256-019-0138-9.
Toepassingen in R:
Interpret Complex Linear Models with SHAP within Seconds voor een toepassing op not-tree models (GLM en neural networks) en SHAP + XGBoost + Tidymodels = LOVE - visualisaties met behulp van package shapviz.
Predict ratings for #TidyTuesday board games (package SHAPforxgboost).
- Bias: The Trouble with Bias - NIPS 2017 Keynote - Kate Crawford.
- Bias: Bias-Variance tradeoff. Zie An Introduction to Bias-Variance Tradeof en Bias and Variance with Real-Life Examples.
- Website: Herstructurering opbouw naar analogie van de Quarto website.
Vrijdag | 27-01-2023
- Fairness: Opiniestuk over dataminimalisatie. Schipper, M. (n.d.). Voor- en nadelen data: Moeten we meer of minder verzamelen voor een eerlijkere samenleving? — Lilith. Retrieved January 27, 2023, from Voor- en nadelen data: Moeten we meer of minder verzamelen voor een eerlijkere samenleving? — Lilith website: https://www.lilithmag.nl/blog/voor-en-nadelen-data. Bevat een aantal interessante voorbeelden van afwegingen.
- Fairness: Performing a Fairness Assessment doorgenomen (Fairlearn).
- Statistiek: Mooie uitleg over de confusion matrix aan de hand van Aesops fabel over ‘The boy who cried “Wolf”’
- Fairness: Mooi, handzaam boekje over data science en AI voor leken van stichting Sense about Science. Riley, E. (2019). Data Science: A Guide for Society (p. 19). London: Sense about Science. Retrieved from Sense about Science website: https://senseaboutscience.org/wp-content/uploads/2019/06/SaS-DataScienceGuide-V8-SinglePages.pdf
- Visualisaties: Headliner package om dynamische teksten te genereren voor ggplot.
- Machine Learning: Gratis training van Google: Google Machine Learning Education.
Donderdag | 26-01-2023
Learning Design: Divjak, B., Grabar, D., Svetec, B., & Vondra, P. (2022). Balanced Learning Design Planning: Concept and Tool. Journal of Information and Organizational Sciences, 46(2), 361–375. https://doi.org/10.31341/jios.46.2.6. Uitwerking van concepten achter tooling om LD te combineren met LA. Zie ook https://learning-design.eu/en/index.
Multiple testing: Gebruik het wildwrwolf package om te corrigeren voor multiple testing op basis van Romano-Wolf. Andere mogelijk methoden: Westfall & Young met het wildwyoung package. Beide van Alexander Fischer.
Fairness: Discussie-avond bijgewoond over Racisme in data en digitalisering van Pakhuis de Zwijger.
Woensdag | 25-01-2023
- Fairness:
- Overzicht van een aantal Fairness frameworks.
- Eerste hoofdstuk van FairLearn User Guide doorgenomen: Fairness in Machine Learning.
- Geeft een aantal ‘harms’ die kunnen optreden: allocation harm (het verschillend toewijzen van resources / voordelen) en quality-of-service harm (de kwaliteit van dienstverlening verschilt), stereotyping harms (zoekresultaten die stereotype voorbeelden geven) en erasure harms (groepen worden uitgesloten van resultaten omdat er geen data over is). De 1e twee zijn het best te meten.
Dinsdag | 24-01-2023
- Causality: Webinar gevolgd van de KNAW over causaliteit: Causaliteit in economie, informatica, logica en taalkunde.
Stanford - Guido Imbeans
Randomized Controlled Trials (efficacy of honey to improve sleep quality); voor complexe projecten is dit niet mogelijk (de treatment kan toch indirect de control groep beïnvloeden - spillover). Does not work for observational studies.
UvA - Sara Maglicacane
- Learning Analytics: Basisartikel over de lay of the land voor Learning Analytics.
- Implementatie: Kennisgemaakt met Arun Rampersad die een heel interessant model heeft gemaakt over de ontwikkeling en implementatie van data oplossingen: zie “Zicht opAlgoritmen”.
Zondag | 22-01-2023
- Fairness:
- Verder gewerkt aan artikel van Mehrabi. Collectie aangelegd van artikelen over fairness.
- Zou, J., & Schiebinger, L. (2018). AI can be sexist and racist — it’s time to make it fair. Nature, 559(7714), 324–326. doi: 10.1038/d41586-018-05707-8. Gelezen. Een aantal mooie praktijkvoorbeelden van biases (foto van de Indische bruid) en mogelijkheden om die tegen te gaan.
- Verma, S., & Rubin, J. (2018). Fairness Definitions Explained. 2018 IEEE/ACM International Workshop on Software Fairness (FairWare), 1–7. doi: 10.23919/fairware.2018.8452913. Aan begonnen. Uitwerking van het begrip fairness naar verschillende statistisch modellen aan de hand van de German Credit Database.
Zaterdag | 21-01-2023
- Learning Technology: The Most Persistent Myth- “The job of the teacher is to guide the social process of learning.” - een video n.a.v. het blog van Nynke Kruiderink over de invloed van technologie op onderwijs.
- Learning Design: Naar aanleiding van een presentatie van Bart Rienties: verbeter het lesontwerp van een cursus ondersteund door data - mogelijk met behulp van Balanced Design Planning. Mogelijke literatuur:
- Synthetic data: Met uncovr/conjurer is het mogelijk om vanuit een model de achterliggende data te genereren (van bedrijf FOYI). Zie How to generate data from a model – Part 1 en Part 2.
- Sport: Fascinerend filmpje (How Hidden Technology Transformed Bowling) over de interactie tussen een bowlingbal (materiaal en zwaartepunt), de baan (de mate van olie op de baan) en de pins (de hoek waarin de pins geraakt worden). Je zou dit kunnen zien als een manier om over studenten na te denken hoe zij door hun studie gaan; dit verschilt per student afhankelijk van de persoonlijke eigenschappen, de conditie en interactie met de baan, de pins (wat is het doel) en de bowler (de docent).
- Website: Integratie met Netlify en zoekmachine Algolia. Domeinnaam hapax-anlaytics.nl gekocht.
Vrijdag | 20-01-2023
- Visualisaties: Demo van de OU voor een process mining dashboard met Qliksense en add-on Vizlib.
- HHs: Gewerkt aan onze nieuwe Gedragscode Privacy & Ethiek Studiedata.
- VU: Voorbereidingen voor onderzoek naar studenten met ADD/ADHD.
Donderdag | 19-01-2023
- SURF SIG Learning Analytics: Bijeenkomst bijgewoond en deelgenomen aan de Studiedata Informatiehub werksessie in het kader van de digitaliseringsimpuls.
- Fairness: Begonnen aan Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys, 54(6), 1–35. doi: 10.1145/3457607
Woensdag | 18-01-2023
- Fairness: Seminar Fairness in Machine Learning and Operations Research bijgewoond (van de VVSOR).
Lezing 1 - An overview of fairness in machine learning, and insights from insurance practice - Rogier Emmen - ORTEC
- Gebruik features van een model om de variabele waarvoor je wil corrigeren te voorspellen.
- Fairness measures: demographic parity (same amount of observations each), equal opportunity (same true positive proportions), equalized odds (same true and false positives proportions).
- TB: Discriminations - to be able to discriminate is important in machine learning. It is inherent to the technique.
- Suggestie voor een artikel: Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys, 54(6), 1–35. doi: 10.1145/3457607 (in papers)
Lezing 2 - Oops and optimality - Vincent Warmerdam
- Geeft voorbeelden van de chickens dataset (lijkt sterk op uitvalsgrafieken)
- Gebruik bij modelleren verschillende seeds en combinaties van cross validation.
- Zelden worden constraints toegevoegd aan modellen. Gebruik die wel (geeft voorbeeld van vectoren).
- Er is trade-off tussen fairness en accuracy.
- Zie website FairLearn om fairness beter te verwerken in algoritmes.
- Personal notes: indrukwekkend persoonlijk verhaal (anecdotisch materiaal helpt om een punt duidelijk te maken).
- Deon: an ethics checklist for data scientists (“command line tool that allows you to easily add an ethics checklist to your data science projects”).
Lezing 4 - Fairness in forensic science - Marjan Sjerps (NFI/UvA)
Eerst blind vergelijken (net als vrouwe justitia). Daarna pas de envelop openen met de contextuele informatie
Objectifying interpretation of evidence (niet termen ‘zwak’ of ‘sterk’ maar een nummer) - likely ratio framework
Zie slide 11 - met de LR worden de rollen gescheiden. De rechter bepaalt op basis van de beschikbare informatie de priors, dan volgt de onafhankelijke LR van de forensic expert, waarna de rechter de posteriors kan bepalen.
Vervolgvragen van de rechter: kunnen we deze getallen vertrouwen en wat was de methode?
Dit is te ondervangen met een validatie studie (Van Es et al, 2017)
Vijfde lezing - How OR can help understand fairness trade-offs in complex practical problems - Thomas Breugem - Tilburg University
- Health Delivery 1. Family planning in Africa
Vertical fairness - varying treatment for varying needs
Probleem: donororganisatie willen dat het aantal kwetsbare clienten dat geholpen wordt toeneemt, maar dat staat op gespannen voet met OR (optimalisatie)
Heeft een model gemaakt dat de trade-off berekent tussen high-impact en volume
- Railway Crew planning 2. Train crew planning
Vraag: is attractiveness (van een rooster) gelijk aan fairness?
Is equality desirable?
Be careful not to overoptimize fairness
Questionable whether fair rosters are desirable for all employees
- Health Delivery 1. Family planning in Africa
- Trends: Trendverkenning studiedata van SURF doorgenomen. Akcaova, G., Baten, D., Poot, G., & Vermaas, K. (2023). Trendverkenning studiedata: een exploratie van opkomende waarden & behoeften rondom studiedata (pp. 1–49). SURF.
Dinsdag | 17-01-2023
- Statistiek: Verwerkt gewerkt aan easystats.
Effect size. Handig is dat je ook een interpretatie kan uitvragen op basis van verschillende “rules of thumb”.
Parameters biedt mogelijkheden om de parameters van modellen te printen. Met de functie select_parameters() worden automatisch de beste parameters gekozen afhankelijk van het model dat is gebruikt.
Performance. Heel interessante en handige functionaliteit om assumpties te testen en modellen te vergelijken.
Zondag | 15-01-2023
- Website:
- Verder gewerkt aan mogelijkheden om de namen en logo’s van De HHs en VU goed weer te geven.
- Publicatie via Github naar Netlify.
- Statistiek: Easystats uitgeprobeerd: reports package. Geeft goede samenvattingen in het Engels (in lopende tekst, tabellen). Daarnaast: correlation,
- Add-inns:
- Esquisse - Add-in voor R om ggplot afbeeldingen snel te kunnen maken.
- ViewPipeSteps - Add-in om de verschillende stappen in een pipe opdracht te visualiseren of printen.
- Visualisaties: Cheat theme sheet voor ggplot.
- Tutorial: Bayesian statistics gevolgd met het bayestestR package van easystats.
`Table: Summary of Posterior Distribution
Parameter | Median | 95% CI | pd | ROPE | % in ROPE | Rhat | ESS |
---|---|---|---|---|---|---|---|
(Intercept) | 4.30 | [4.14, 4.46] | 100% | [-0.10, 0.10] | 0% | 1.000 | 3521.00 |
Petal.Length | 0.41 | [0.37, 0.45] | 100% | [-0.10, 0.10] | 0% | 1.000 | 3384.00 |
Statistiek: Bayesian statistiek - website van de UvA over bayesiaanse statistiek.
Zie met name de uitleg over een herberekening van de onderbouwing van de cognifitieve dissonantie theorie van Festinger uitgevoerd in JASP: Ly, A., Raj, A., Etz, A., Marsman, M., Gronau, Q. F., & Wagenmakers, E.-J. (2018). Bayesian Reanalyses From Summary Statistics: A Guide for Academic Consumers. Advances in Methods and Practices in Psychological Science, 1(3), 367–374. doi: 10.1177/2515245918779348 (in papers)
De analyse van dit artikel herhaald in JASP aan de hand van de uitleg.
Zaterdag | 14-01-2023
- Future trends: Why the Future Doesn’t Need Us. Dystopisch artikel over de toekomst van de mensheid in relatie tot robotica, nano-technologie, bio-engineering (GNR technologie - genetics, nano, robots) uit 2000.
- Waarom we eventueel een dystopische toekomst niet merken is omdat het zich gradueel voltrekt en we eraan wennen. Nieuw is dat ze voor een brede groep ontwikkelaars ter beschikking komen i.t.t. de ontwikkeling van kernwapens of kernenergie. Ontwikkelingen zullen rond 2030 samenkomen.
- We moeten ons de vraag stellen hoe we het beste met deze nieuwe technologieën kunnen co-existeren.
- Overige technologieën: bio-engineering (cloning, ontwikkeling nieuwe planten, voorkomen of genezen van ziektes, overwinnen van ouderdom door genetic engineering), nano-technologie (assemblers). Het risico vormt “the power of destructive self-replication in genetics, nanotechnology, and robotics (GNR)” die niet in handen van overheden is maar van commerciële bedrijven.
- Hij put er hoop uit dat we in staat zijn geweest andere technologieën die bedreigend zijn aan banden te leggen of ervoor kiezen ze niet te ontwikkelen (zoals biologische wapens).
- AI: Stop Tinkering with AI. Artikel van Davenport en Mittal over 10 randvoorwaarden voor een succesvolle implementatie van AI.
- 1) Know What You Want to Accomplish (Standaardisatie van informatie), 2) Work with an Ecosystem of Partners, 3) Master Analytics, 4) Create a Modular, Flexible IT Architecture, 5) Integrate AI into Existing Workflows, 6) Build Solutions Across the Organization, 7) Create an AI Governance and Leadership Structure, 8) Develop and Staff Centers of Excellence, 9) Invest Continually, 10) Always Seek New Sources of Data.
- Statistiek: easystats package maakt snelle samenvattingen van data eenvoudig (easystats: Quickly investigate model performance). Is eigenlijk een verzameling van packages om snel te kunnen modelleren.
- Sample size: minsample package. “This package helps the user to determine the minimum sample size required to attain the pre-fixed precision level.”
- Visualisatie: mooie visualisatie van de NOS over de ontwikkeling van de wereldbevolking.
- Voorspellingen van succes: Alyahyan, E., & Düştegör, D. (2020). Predicting academic success in higher education: literature review and best practices. International Journal of Educational Technology in Higher Education, 17(1), 3. doi: 10.1186/s41239-020-0177-7. Uitstekend samenvattend paper over mogelijkehden voor het bouwen van voorspellende modellen. Misschien goed om te gebruiken in inaugurele rede. In papers.
Vrijdag | 13-01-2023
- Imputation: Artikel dat een aantal methoden voor imputatie vergelijkt: Imputation in R: Top 3 Ways for Imputing Missing Data.
- Git: Initiële commit gemaakt naar Github repo.
Woensdag | 11-01-2023
- Motivatie: Over de invloed van cijfers op de intrinsieke motivatie van leerlingen; intrinsieke motivatie neemt af door cijfers.
- Synthetische data: faker - een python library om synthetische persoonsgegevens te maken. Alternatief: faker-js. Alternatief in R: charlatan (in meerdere talen, bevat ook de mogelijkheid om messy data te maken).
- Publiciteit: Artikel op Scienceguide over mijn vierde artikel: Succes student met autisme beter te voorspellen.
- ChatGPT: Student bouwt tool om plagiaat met ChatGPT te herkennen.
Dinsdag | 10-01-2023
Deep Learning en Learning Analytics: een vergelijkend onderzoek van deep learning en machine learning in Learning Analytics toont aan dat ML modellen even goed voorspellen en beter uitlegbaar zijn.
- Doleck, T., Lemay, D. J., Basnet, R. B., & Bazelais, P. (2020). Predictive analytics in education: a comparison of deep learning frameworks. Education and Information Technologies, 25(3), 1951–1963. doi: 10.1007/s10639-019-10068-4. In papers.
Trends: Kevin Kelly: The Case for Optimism.
Ubiquitous AI - Up until the industrial revolution anything that humans made, including cities and roads, had to be made with the energy of organic muscles (human or animal), which was drastically limited. With the advent of cheap artificial power, we could erect tall skyscrapers, vast continental railroads, immense factories, and mass manufacturing -- all way beyond what meat muscles could do. We have started to do the same with our natural thinking muscles, by seeding the world with artificial intelligences. A zoo of hundreds of different species of new types of mind will be working with humans to solve problems. These non-human minds (sometimes with bodies we call robots) will do work humans don’t want to do, or can’t do. Humans and AIs together will co-create new desires and new jobs. The long-term driver of progress -- automating physical jobs -- will continue, and then begin to take over non-physical chores as well. The three chief consequences of AI will be the liberation of humans from their unwanted jobs, the explosion of new services and formerly impossible products that are co-created with AIs, and new occupations and desirable tasks for humans. AIs and robots are designed for efficiency and productivity, while these millions of new human jobs are primarily tasks where inefficiency is tolerated. To excel in innovation, entrepreneurship, art, caring, hospitality, science and discovery, humans must try things that don’t work, embrace failures, encourage small talk and playfulness -- all inefficient. Efficiency is for robots. Ubiquitous AI is the most optimistic force we can imagine.
Maandag | 09-01-2023
- AI: Artikel van TED talks over de problemen die er waren met volledig autonoom rijden door Janelle Shane.
Een probleem was het terugschakelen van de autonome functie naar de chauffeur. Deze had zo lang niets gedaan, dat een ingreep te laat kwam. Ook had AI niet geleerd alle mogelijkheden te herkennen (zoals een kangoeroe of een vrachtwagen van de zijkant).
In het bijbehorende filmpje (The danger of AI is weirder than you think) gaat Shane erop in dat AI goed aangeleerd moet worden wat restricties (!) zijn, anders zal het op elke mogelijke manier voldoen aan de opdracht die we geven. “It’s entire world is the data that I gave it.” AI zelf heeft geen besef van wat goed of fout is; dit wordt gevoed (of niet) door de ontwerper/programmeur. Zo heeft een facebook algoritme als opdracht zoveel mogelijk kliks te genereren; negatieve content genereert meer kliks.
- Autisme: Interview voor het blad Autisme van de NVA.
- AI: Why we need to create AI that thinks in ways that we can’t even imagine (23 mei 2017)“AI could just as well stand for”alien intelligence.” We have no certainty we’ll contact extraterrestrial beings in the next 200 years, but we have almost 100 percent certainty that we’ll manufacture an alien intelligence by then.” - Kevin Kelly - TED betoogt dat we met AI andere vormen van intelligentie zullen ontwikkelen die we met menselijke intelligentie niet kunnen bedenken. Deze zijn gespecialiseerd op specifieke domeinen.
Humans are for inventing new kinds of intelligences that biology could not evolve. Our job is to make machines that think different — to create alien intelligences.
Artificial intelligence will help us better understand what we mean by intelligence in the first place. In the past, we would have said only a superintelligent AI could beat a human at Jeopardy! or recognize a billion faces. But once our computers did each of those things, we considered that achievement obviously mechanical and hardly worth the label of true intelligence. We label it “machine learning.” Every achievement in AI redefines that success as “not AI.”
But we haven’t just been redefining what we mean by AI — we’ve been redefining what it means to be human.
Bijbehorende TED talk: How AI can bring on a second Industrial Revolution (dec 2016)
We weten niet hoe een druppel precies van de berg afgaat, maar wel welke kant het opstroomt.
1) We zullen varianten van cognition ontwikkelen op verschillende domeinen. Dit is nu ook al zo; bij mensen, maar ook bij dieren. Een eekhoorn heeft een fenomenaal geheugen voor noten. Op sommige domeinen zal dat worden, op andere niet. De vraag is of dit ook voor het onderwijsdomein zal gaan gelden. Zij worden niet afgeleid. We zullen zoveel mogelijk soorten ontwikkelen.
2) De eerste industriële revolutie was artificial power. De tweede industriële revolutie wordt de toevoeging van AI daarin toe: “we’re going to cognify it”.
3) Als we dit belichamen hebben we een robot. Deze zullen nieuwe zaken gaan doen, waarvan we nog niet wisten dat we die nodig hadden, net zoals dit is gedaan met automatisering. Mensen zijn heel goed in zaken die niet efficiënt zijn - zo leren we, door het maken van fouten. Efficiëntie is voor robots. Het beste wordt een hybride oplossing - hoe goed je met deze bots kan samenwerken.
Zondag | 08-01-2023
AI: De cursus De AI-cursus voor onderwijs van de AI-coalitie gevolgd.
Track #1 | Onderwijsdilemma’s.
Track #2 | Mogelijkheden van AI in het onderwijs: Inge Molenaar: 1. Detecteren, 2. Interpreteren (kennis, motivatie, emotie), 3. Handelen (pedagogisch-didactisch).
Track #3 | Hoe werkt AI in het onderwijs? Over adaptiviteit: van stap-, naar taak-, naar curriculum-adaptiviteit.
Track #4 | AI in je onderwijs, verwachtingen VO. AI in je onderwijs, verwachtingen VO. “Learnbeat en Bettermarks zijn de meest bekende voorbeelden van software in het VO waarin AI wordt toegepast. Ook bij het pakket zoals Memrise zit AI achter de motorkap.” Koen Strauss - oprichter van Learnbeat komt aan het woord.
Track #5 | Overzicht krijgen met dashboards. Vier mogelijkheden: informeren, adviseren, begeleiden, voorschrijven van handelingen.
Track #6 | De veranderende rol van de docent. Legt de relatie tussen de rol van de leerkracht en het besturen van een auto (zie onder).
Mooi filmpje over het perspectief van de docent.
Track #7 | Uitdagingen met AI. AI kan leiden tot meer kansengelijkheid: leerlingen kunnen in hun eigen tempo de lesstof volgen (wat leidt tot meer motivatie) en het pygmalion effect (dat een docent of ouders een student onbewust bevooroordelen) treedt niet op.
Bijdrage aan kansenongelijkheid: ongelijke verdeling van toegang tot digitale middelen, leerlingen die meer zelfsturing kan handelen leert ook sneller (verschillen worden groter), zwakkere leerlingen kunnen niet leren van de snellere leerling (cohesie in een klas neemt af), risico dat leerlingen geconfronteerd worden op basis van oude data (nadeel van profilering - recht om vergeten te kunnen worden).
Track #8| Een kijkje in de toekomst en zelf aan de slag.
Aankondiging van het Nationaal Onderwijs Lab AI (platform voor onderwijs en wetenschap).
AI: Visualisatie van de EPRS, Europese Commissie van de mate van toepassing van AI op de weg.
AI in hoger onderwijs: Special van European Journal of Education (Vol 57, Issue 4) 2022 over AI in het onderwijs.
AI in onderwijs: Molenaar, I. (2022). Towards hybrid human‐AI learning technologies. European Journal of Education, 57(4), 632–645. doi: 10.1111/ejed.12527 gelezen. In Papers.
Ilustraties van Radboud Universiteit.
Presentatie van het 6 kolommen model:
Vragen: Is dit ook toepasbaar voor het hoger onderwijs? In welke mate is het onderscheid ‘stap, taak, curriculum’ voldoende? Hoort daar niet het 4e niveau ‘life long learning’ bij?
Zaterdag | 07-01-2023
- AI: QuilBot - AI tool om parafraseringen te maken. Wordt gepresenteerd om tekst van ChatGPT aan te passen, zodat plagiaat-detectie door Google niet te doen is.,
- AI en ChatGPT: Een video over het maken van een website voor schoenen met behulp van AI. Pretty impressive. Tools die gebruikt zijn: Midjourney, ChatGPT en Editor X.
- Website: Gestart met een projectenpagina; geoefend met citaties en het toepassen van de APA style (via het Citation Style Language format) + het citeerbaar maken van een artikel.
- Visualisatie: Gant chart met afgeronde hoeken: Storytelling in ggplot using rounded rectangles van Albert Rapp. Hij heeft een interessante portfolio.
- Visualisatie: Dot plots voor het vergelijk van twee jaren: Alternatives to paired bar charts.
- Visualisatie: Storytelling met ggplot: Recreating the Storytelling with Data look with ggplot.
- Visualisatie: TidyTuesday website. Bevat een lijst met boeken om betere visualisaties te leren maken.
- AI: Podcast De Technoloog | BNR van 13 december 2022: Ook de natuurkunde krijgt hulp van kunstmatige intelligentie met Max Welling, hoogleraar machine learning aan de UvA.
Belangrijk is dat we werken aan vertrouwen in algoritmes, omdat het steeds moeilijker of al onmogelijk is om ze noch te begrijpen. Vergelijkbaar met het in een vliegtuig stappen; daar hebben we vertrouwen in omdat de certificering goed is.
Kunnen we neurale netwerken ook inzetten voor het voorspellen van succes in het hoger onderwijs? Wat is daarvoor nodig. Welling noemt dit het 5e paradigma, waarbij simulaties een essentiële rol spelen.
- Visualisatie: Het showtext package maakt het mogelijk om externe fonts in R images te gebruiken.
- Visualisatie: Het thematic package maakt het mogelijk om eenvoudig thema’s aan te passen voor ggplot / shiny op basis van algehele settings…
Vrijdag | 06-01-2023
- Website: Verder gewerkt aan de ‘over’ pagina en eerste opzet van het blog.
Donderdag | 05-01-2023
- Website: Geoefend met Quarto en het uitzoeken van een pallet.
- CV: Georiënteerd op CV’s in Quarto. Het vitae package lijkt interessant.
Woensdag | 04-01-2023
- fAIr: Mitigating Bias in Artificial Intelligence is onderdeel van Haas School of Business (University of California, Berkeley) - Center for Equity, Gender & Leadership. Hebben een playbook ontwikkeld. Rapport opgenomen in papers: Smith, G., & Rustagi, I. (2020). Mitigating Bias in Artificial Intelligence (p. 62). Berkeley Haas Center for Equity, Gender and Leadership.
- Netwerk analyse: nnet - Network Analysis and Community Detection
- Clustering: tidyclust - The goal of tidyclust is to provide a tidy, unified interface to clustering models. The packages is closely modeled after the parsnip package.
- Outliers: How to perform a kfino outlier detection met het kfino package.
- Heatmap: funkyheatmap package: Provides functions for generating heatmap-like visualizations for benchmark data frames, which can be fine-tuned with annotations for columns and rows.
- Visualisatie: ggpcp v0.2.0: Provides a Grammar of Graphics implementation of parallel coordinate plots that incorporates categorical variables into the plots in a principled manner.
- Reviews: Voor LAK23 en voor Psychology in the Schools.
Dinsdag | 03-01-2023
- GIS: Eerste kaartje van Den Haag gemaakt!
- GIS: Korte cursus ggplot en sf gevolgd. Drawing beautiful maps programmatically with R, sf and ggplot2 — Part 1: Basics, Drawing beautiful maps programmatically with R, sf and ggplot2 — Part 2: Layers en Drawing beautiful maps programmatically with R, sf and ggplot2 — Part 3: Layouts
- fAIr: MOSTLY AI - Bedrijf uit Oostenrijk dat gebruik maakt van datasynthetisatie om fair AI te realiseren.
- fAIr: Fairness and Machine Learning - Limitations and Opportunities van Solon Barocas, Moritz Hardt, Arvind Narayanan.
Maandag | 02-01-2023
- Google ML: Een game die met ML antwoorden genereert die nog niet van tevoren bekend zijn. Semantic ML.
- Neuroinclusive design: Ontwerp van software voor neurodiverse gebruikers.
- Technische trends: 10 IT-trends volgens Google
- Visualisaties: Gebruik van ternaire kleurcodering om afwijking van een gemiddelde te laten zien. Package: tricolore.
- Open AI: Meerdere artikelen op NRC gelezen (opgeslagen in papers).
- Parttree: Package om visualisaties te maken van tree based decisions.
Zondag | 01-01-2023
- Ggplot2: Ggplot2 cursus gevolgd (intro en dl 1 en dl 2) van Cédric Scherer.
- Ggplot2: camcorder package om ggplot in R makkelijk te bewaren en van de screenshots ervan een filmpje te maken.
- LinkedIn: Kenbaar gemaakt dat ik een nieuwe baan heb.
- Twitter: Profiel aangepast.
- Tensorflow: Kennis mee gemaakt vanuit video over de technologie achter GPT. Link naar Tensorflow (Classify text with BERT). R heeft een eigen versie voor R studio met bijbehorende website.
- AI: Bot om reacties op een chatfunctie te filteren op ongepast gedrag. ‘I built an AI-powered moderation bot for Discord’. De api die erbij gebruikt is: perspective.
December 2022
Zaterdag | 31-12-2022
- fAIr: Boek aangeschaft over fair AI. Lobel, O. (2022). The Equality Machine: Harnessing Digital Technology for a Brighter, More Inclusive Future. Verder gelezen (circa helft)
Dinsdag | 27-12-2022
- Multiaccuracy boost: een methode om bias te corrigeren op minderheidsgroepen. Zie mcboost.
- Modelling: Gebruik het stacks package om eenvoudig ensembles te maken. Hacking by stacking—how to get better {tidymodels} performance with {stacks}
- Kleur en kleurenblindheid: Viridis colorscale.
viridis
, and its companion packageviridisLite
provide a series of color maps that are designed to improve graph readability for readers with common forms of color blindness and/or color vision deficiency. The color maps are also perceptually-uniform, both in regular form and also when converted to black-and-white for printing.
- Visualisatie: Calendarheatmap. Gebruikt om tweets te visualiseren. Heeft nog 2 andere visualisaties voor tweets: tweet frequency over the years.
Maandag | 26-12-2022
- fAIr: Boek aangeschaft over fair AI. Lobel, O. (2022). The Equality Machine: Harnessing Digital Technology for a Brighter, More Inclusive Future. PublicAffairs.
- SIG AI: Jaarplan gelezen.
- Statistiek: Keuzes voor testen.
- Google Analytics: Google Analytics in R: Review of 2022
- Visualisatie: ggdist: Visualizations of distributions and uncertainty
- Blog: Met distill, github en netlify kan je een blog maken (video) of met quarto.
- Artikel: Baarsma, B., Haar, B. T., Wijnands, B., Blom, F., Wijers, H., Winter, J., … Veeken, R. V. der. (2021). De datagedreven toekomst.nl (pp. 1–56). Denkwerk. Retrieved from Denkwerk website: https://denkwerk.online/rapporten/de-datagedreven-toekomstnl-februari-2021/. Hoofdstukken 5-7 gelezen.
- Artikel: Baarsma, B., Haar, B. T., Wijnands, B., Blom, F., Wijers, H., Winter, J., … Veeken, R. V. der. (2021). De online wereld.nl: hoe we grip terugpakken op onze online wereld (pp. 1–64). Denkwerk. Retrieved from Denkwerk website: https://denkwerk.online/rapporten/de-online-wereldnl-februari-2021/. Gelezen; met name interessant is het idee van de s-curve.
Zondag | 25-12-2022
- Artikel: Baarsma, B., Haar, B. T., Wijnands, B., Blom, F., Wijers, H., Winter, J., … Veeken, R. V. der. (2021). De datagedreven toekomst.nl (pp. 1–56). Denkwerk. Retrieved from Denkwerk website: https://denkwerk.online/rapporten/de-datagedreven-toekomstnl-februari-2021/. Tot en met hoofdstuk 4 gelezen.
- Data pipeline: Targets package om meerdere stappen achter elkaar te automatiseren en te kunnen herhalen. Zie voor een voorbeeld: A journey with Targets. ROpenSci. Uitgeprobeerd: te complex.
Zaterdag | 24-12-2022
- Text Analysis: Hoofdstuk 2 en 3 van Text Mining with R: A Tidy Approach doorgenomen: 2 Sentiment analysis with tidy data en 3 Analyzing word and document frequency: tf-idf
- MacOS: Een goede installatie van een nieuwe Mac: Setting up macOS as an R data science rig in 2023.
- ChatGPT: Uitleg van de modellering.
- ChatGPT: Goede uitleg van de onderliggende werking. Create Texts with a Markov Chain Text Generator… and what this has to do with ChatGPT!
Vrijdag | 23-12-2022
- Coding: Rhino - een package om gemodulariseerde/objectgeöriënteerde Shiny code te ontwikkelen; het gebruikt daarvoor het box package.
Donderdag | 22-12-2022
- Promotie A4: proof drukversie verbeterd.
Zondag | 18-12-2022
- Visualisatie: Mooie visualisatie over Messi van The xG Philosophy.
- Model calibration: Nieuw package, probably, in tidymodels om modellen te calibreren. The goal of model calibration is to ensure that the estimated class probabilities are consistent with what would naturally occur.
- Spatial: Een overzicht van verschillende packages op basis van de UK.
Donderdag | 15-12-2022
- RVerbalExpressions - The goal of
RVerbalExpressions
is to make it easier to construct regular expressions using grammar and functionality inspired by VerbalExpressions. Usage of%>%
is encouraged to build expressions in a chain like fashion.
Zondag | 04-12-2022
- Databricks: Azure platform om data te verwerken.
November 2022
Dinsdag | 29-11-2022
Zaterdag | 26-11-2022
- Blended learning: 7 tips voor het maken van effectieve kennisclips
Zondag | 21-11-2022
- Corona: artikel over achterstand in het po. Onderzoek wijst uit: de leervertraging door de schoolsluitingen loopt op. Veldhuis, P. (2022, November 18). Onderzoek wijst uit: de leervertraging door de schoolsluitingen loopt op - NRC. Retrieved November 20, 2022, from https://www.nrc.nl/nieuws/2022/11/17/onderzoek-wijst-uit-de-leervertraging-door-de-schoolsluitingen-loopt-op-a4148607.
- Gelijke kansen: Inaugurele rede van Carla Haelermans. Haerlemans, C. (2022). Computer says no! Over technologie en ongelijkheid in het onderwijs. doi: 10.26481/spe.20220930ch. Contact mee opgenomen via LinkedIn.
- Autisme: Rebuttal 3 voor A4 afgerond en naar Sander verstuurd.
Zaterdag | 19-11-2022
- Imputatie: alternatief package voor multiple imputation: Multiple Imputation and Synthetic Data Generation with NPBayesImputeCat.
- Imputatie en weighting: MatchThem: Matching and Weighting after Multiple Imputation
- Reproducible Research: Advancing Reproducible Research by Publishing R Markdown Notebooks as Interactive Sandboxes Using the learnr Package
- Timeseries: tsibbletalk - package om timeseries te koppelen aan meerdere plots. Zie ook artikel: Conversations in Time: Interactive Visualization to Explore Structured Temporal Data.
- Data exploratie (EDA): brinton package om in 1x alle mogelijke visualisaties van een variabele te zien. Zie ook A Graphical EDA Tool with ggplot2: brinton.
- Data wrangling: Fixing broken and irregular column headers met unheadr package.
- Tidymodels: hoofdstuk 10 - Resampling for Evaluating Performance. Behandelt bias - idee voor inauguratie - zouden we met resampling binnen het onderwijs kunnen werken, bijv. met klassen? Dat geeft minder bias. Onderscheid tussen low bias models (random forest) en high bias models (lm). De low bias doet het slechter bij een test set, omdat het - zonder sampling - altijd de perfecte verdeling voor de trainingset kan nabootsen. Met x-fold en stratificatie lossen we dit probleem op. Idee > dit kan het onderwijs leren van ML. Je zou op die manier studentengroepen kunnen indelen. Een goede fold is 10; repeats worden uitgevoerd om de noise te reduceren (standaard errors). Een alternatief is bootstrapping (sampling met replacement). Bij tijdsseries kan je gebruik van maken van rolling forecasts resampling. Tijdswinst is te behalen met parallel processing.
Vrijdag | 18-11-2022
- Visualisaties: ggblanket package - een wrapper om ggplot met een eenvoudiger interface.
- Visualisaties: simplevis package om de stijl van visualisaties te vereenvoudigen.
- Tijdseries: grates package om tijdsintervallen eenvoudig te kunnen indelen en viusaliseren.
Donderdag | 17-11-2022
- Autisme: A4 commentaar van de editor verwerkt.
Woensdag | 16-11-2022
Text analysis: Hoofdstuk 2 gelezen van Supervised Machine Learning for Text Analysis in R - Tokenization. Gebruik voor tokenization de packages tokenizers (Mullen et al. 2018) and spaCy (Honnibal et al. 2020). Bevat code om tekst uit hoofdstukken te nesten (2.2). Dit kan je eventueel gebruiken om zinnen te scheiden die ‘hostile’ zijn of niet.
Benchmarking: gebruik het bench package om benchmarking uit te voeren:
::mark(check = FALSE, iterations = 10, bench`corpus` = corpus::text_tokens(hcandersen_en$text), `tokenizers` = tokenizers::tokenize_words(hcandersen_en$text), `text2vec` = text2vec::word_tokenizer(hcandersen_en$text), `quanteda` = quanteda::tokenize_word(hcandersen_en$text), `base R` = strsplit(hcandersen_en$text, "\\s") ) #> # A tibble: 5 × 6 #> expression min median `itr/sec` mem_alloc `gc/sec` #> <bch:expr> <bch:tm> <bch:tm> <dbl> <bch:byt> <dbl> #> 1 corpus 75.9ms 81ms 11.9 4.58MB 1.33 #> 2 tokenizers 96.2ms 104ms 9.54 1.01MB 2.38 #> 3 text2vec 78.5ms 82ms 11.9 15.61MB 1.33 #> 4 quanteda 163.2ms 172ms 5.69 8.7MB 1.42 #> 5 base R 294.1ms 302ms 3.15 10.51MB 2.10
Text analysis: Een Nederlandse taallijst voor tokenization is gemaakt door de KU-Leuven: RobBERT.
Dinsdag | 15-11-2022
Tidymodels: Improvements to model specification checking in tidymodels - artikel over de manier waarop tidymodels het wisselen tussen verschillende implementaties van een model mogelijk maakt met parsnip en hoe - door de foutmeldingen - duidelijk wordt gemaakt wat je aanvullend moet doen om het werkend te krijgen.
Tidymodels: brulee 0.2.0 - goed voorbeeld van een recipe aan de hand van het brulee package.
“brulee contains several basic modeling functions that use the torch package infrastructure, such as: neural networks, linear regression, logistic regression, and multinomial regression.”
Tidymodels: bundel - package om een model te bouwen en te bundelen inclusief referenties, zodat je dat portable maakt.
The bundle package provides a consistent interface to capture all information needed to serialize a model, situate that information within a portable object, and restore it for use in new settings.
- Tidymodels: censored - parsnip extensie voor survival analyses.
- Tidymodels: agua - package om h2o functionaliteit te kunnen gebruiken.
- Tidymodels: spatialsample - package om samples op basis van GIS te organiseren en visualiseren.
- Tidymodels: bonsai - parsnip extensie voor tree models.
- Text analysis: hoofdstuk 1 gelezen van Supervised Machine Learning for Text Analysis in R - Language and modeling.
- Weighting: Blog van Tidyverse over de ondersteuning van case weights.
Maandag | 14-11-2022
- Tidymodels: hoofdstuk 8 over Feature Engineering with recipes afgerond.
- Balans: themis - package om disbalans op te lossen.
- Balans: Zie ook het artikel over het SMOTE algoritme (Synthetic Minority Over-sampling Technique): Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, 16, 321–357. doi: 10.1613/jair.953.
Zondag | 13-11-2022
Survival analyses: cursus om survival analyses te leren.
Labels: Column Names as Contracts - het belang van labels. Bijbehorend het convo package.
Datavalidatie: pointblank - package om datavalidatie makkelijk op te stellen en uit te voeren. Zie voor een toepassing Column Names as Contracts.
Datastraat en datateams: Building a team of internal R packages
Causal statitstics: Causal design patterns for data analysts en boekenlijst over causal inference.
Tools: paletton.com om palettes samen te stellen; imagecolorpicker.com om vanaf een foto de dominante kleuren af te leiden.
- Responsible AI: The Hitchhiker’s Guide to Responsible Machine Learning gelezen.
- Responsible AI: DALEX uitproberen aan de hand van de Titanic data
Zaterdag | 12-11-2022
- Visualisaties: Level op your plots - ggplot met annotaties (site)
- Text & reporting: VerbaliseR: package om teksten op te zetten en rekening te houden met enkelvoud en meervoud.
- Kleur: MonochromeR: package om kleurpalettes in monochroom op te bouwen.
- Reporting: gtsummary package om standaard summary tabellen te maken en het bijbehorende vignette met voorbeelden van tabellen. Zie ook Reproducible Summary Tables with the gtsummary Package.
- Datastraat: starter: package om een project te starten met default files.
- Labels: The case for variable labels in R - uitleg van labels in data, tabellen en vizs.
Vrijdag | 11-11-2022
- Explainable AI: Gebruik het RSafe package om een black box model om te zetten naar een white box model. Zie ook Simplify your model: Supervised Assisted Feature Extraction for Machine Learning. Nog lezen: Gosiewska, A., Gacek, A., Lubon, P., & Biecek, P. (2019). SAFE ML: Surrogate Assisted Feature Extraction for Model Learning. arXiv. doi: 10.48550/arxiv.1902.11035
- Explainable AI: Methode om feature selection te permuteren om de beste features te selecteren.
- Explainable AI: Gebruik van Shapley values om de bijdrage van een feature aan een voorspelling te begrijpen.
- Explainable AI: Boek: Interpretable Machine Learning, A Guide for Making Black Box Models Explainable
Donderdag | 10-11-2022
- HHs: Lectorale rede van Lampros
Woensdag | 09-11-2022
- Open data: website met open data op nationaal niveau en mogelijkheid om regio’s met elkaar te vergelijken in Europa.
- SQL: r-universe/r-dbi: Verzameling packages om databases te benaderen
Dinsdag | 08-11-2022
- Tidymodels: hoofdstuk 8 (Feature Engineering with recipes) afgerond, maar was ingewikkeld - nog een keer lezen.
Maandag | 07-11-2022
- Tidymodels: hoofdstuk 7 (A Model Workflow) afgerond.
- Imputatie: VIM package (zie ook de visualisaties).
Zondag | 06-11-2022
- Visualisaties: R graphics cookbook - werkt ggplot2 uit
- Missingness: Package om missende waarden te analyseren: naniar
- Validatie: Datavalidatie Cookbook van Mark van der Loo (validate package)
- Bias: fairmodels: a Flexible Tool for Bias Detection, Visualization, and Mitigation in Binary Classification Models - interessant artikel over het modelleren van fairness om bias tegen te gaan: Wiśniewski & Biecek, “The R Journal: fairmodels: a Flexible Tool for Bias Detection, Visualization, and Mitigation in Binary Classification Models”, The R Journal, 2022. Idee voor een vervolgonderzoek naar bias in hoger onderwijs (vergelijken met analyses op veroordeelden). Dit in verband brengen met studentenwelzijn - subsidieaanvraag bij NRO?
- Explanatory Model Analysis: in het verlengde van fairmodels is er een groep van packages om modellen beter uit te leggen (DrWhy) met een bijbehorend boek: Explanatory Model Analysis.
- Responsible AI: methode om van een blackbox model alsnog naar een explainable model te komen: Simplify your model: Supervised Assisted Feature Extraction for Machine Learning. Zie ook het stripboek en de bijbehorende tutorial van de UseR2022 conferentie.
- Tools: Student feedback: Student Pulse (Gorm Eriksen)
- Drift: het probleem dat modellen na Covid anders presteren heet drift. Om dit te berekenen gebruik het drifter package.
- Data cleaning: stringr::str_squish - verwijdert leading en trailing spaces
- Tidymodels: hoofdstuk 3 (A Review of R Modeling Fundamentals), hoofdstuk 4 (The Ames Housing Data), hoofdstuk 5 (Spending our Data) en hoofdstuk 6 (Fitting Models with parsnip) afgerond.
- Coding: package conflicted om conflicterende functies te ordenen en de voorkeur te geven aan een bepaald package.
Zaterdag | 05-11-2022
- 3D visualisatie: Presentatie over 3D animatie van een roller coaster door data
- Visualisaties: Visualisaties in python.
- Samenwerking: Openscapes - Samenwerkingsmethode voor data science teams
- Quarto: Video over de mogelijkheden van Quarto
- VU - autisme: Gewerkt aan rebuttal 2 voor A4 (submission naar Autism).
- Data cleaning: cleaner - package om data te checken en cleanen.
- Visualisaties: R-charts com - verzamelwebsite met plots via ggplot
- Illustraties: Allison Horst - open source tekeningen bij data science en populaire packages.
Vrijdag | 04-11-2022
- Textmining: boek over Textmining
- Browzine: laatste updates van journals die je volgt (dienst van De HHs)
Donderdag | 03-11-2022
Studiesucces: Praktijkgidsen OU voor effectief studeren (thinkfest) - #studiestrategie
Student Agency: Onderzoek van Jeanine Haenen onder studenten bij faculteit x? Misschien kunnen Student Agenda meenemen in Machine Learning modellen (thinkfest).
Woensdag | 02-11-2022
- Quarto: Gallery bekeken en presentaties met reveal.js.
- Missingness: Artikel over missing data gelezen (pp 151-156). Little, T. D., Jorgensen, T. D., Lang, K. M., & Moore, E. W. G. (2014). On the Joys of Missing Data. Journal of Pediatric Psychology, 39(2), 151–162. doi: 10.1093/jpepsy/jst048
- UITZOEKEN: p 154: Wat is het verschil tussen inclusive en non-inclusive implementation van MI of FIML?
- Tidymodels: Hoofdstuk 3 en 4 gelezen van Tidy modeling with R.
Dinsdag | 01-11-2022
- Autisme: Positieve uitslag op rebuttal voor A4 in Autism!
- Simulaties: simstudy - package om simulatiedata te maken. Idee: data van de HHs simuleren. Zie als voorbeeld Modeling the secular trend in a cluster randomized trial using very flexible models
- Workflow: R Workflow- een opzet voor een R workflow met een verdere uitwerking in een boek: R Workflow: R Workflow for Reproducible Data Analysis and Reporting.
Oktober 2022
Maandag | 31-10-2022
Vervolglessen gedaan in QGIS: kaartlagen
Begin gemaakt met studie naar factoren die van invloed zijn op gelijke kansen. - Badou, M., & Day, M. (2021). Kansengelijkheid in het onderwijs. Verkennend onderzoek naar factoren die samenhangen met onderwijs(on)gelijkheid (p. 34). Gelijke kansen alliantie.
Countrycode package: package voor het vertalen van countrycodes naar hun naam.
Workflows: Workflowsets: onderdeel van de tidy models; met name de MAE diagram.
Boek: Tidy modeling with R. Interessant - lezen.
Zondag | 30-10-2022
- Dit logboek is bedoeld om bij te houden welke ideeën ik heb voor mijn lectoraat. Het is ook bedoeld voor mijzelf om Quarto aan te leren.
- In de week van 24 oktober 2022 ben ik begonnen mijzelf weer in te werken in het vakgebied, na ongeveer 2 jaar tijd in mijn andere baan als directeur OKC gewerkt te hebben.
- Ik heb een aantal bookmarks verzameld aan de hand van R-packages. Daar zitten meerdere interessante packages bij. Ik zie met name mooie kansen voor GIS, visualisaties (in afbeeldingen en tabellen), rapportages en boeken in Quarto.