We bevinden ons nu in de derde fase van het machine learning-project – dat wil zeggen, we zijn voorbij ontkenning en woede, en we glijden nu af naar onderhandeling en depressie. Ik ben belast met het gebruik van een Ars Technica-dataset van vijf jaar headline-testen, die twee ideeën tegen elkaar plaatst in een A/B-test Hiermee kunnen lezers selecteren welke wordt gebruikt voor een artikel. Het doel is om te proberen een machine learning-algoritme te bouwen dat het succes van een bepaalde kop kan voorspellen. En de Vanaf mijn laatste check-inHet ging niet volgens plan.
Ik heb ook een paar dollar uitgegeven aan Amazon Web Services-accounttijd om erachter te komen. De ervaring kan een beetje prijzig zijn. (Tip:: Gebruik de Autopilot-modus niet als u een krap budget heeft.)
We hebben een aantal methoden geprobeerd om onze pool van 11.000 koppen van 5.500 titeltests te analyseren – halve winnaars en halve verliezers. Eerst namen we de hele set in de vorm van door komma’s gescheiden waarden en probeerden “Wees gegroet” (of, zoals ik het later zie, “Jenkins Leroy‘) met behulp van de autopilot-tool in SageMaker Studio bij AWS. Dit leverde een validatienauwkeurigheid van 53 procent op. Later bleek dit niet zo slecht te zijn, want toen ik een model gebruikte dat speciaal is gebouwd voor natuurlijke taalverwerking – AWS’ BlazingText—Het resultaat was een nauwkeurigheid van 49 procent, of zelfs erger dan het opgooien van een munt. (Als veel hiervan als onzin klinkt, raad ik het trouwens aan) Herbekijk deel 2, waar ik deze tools in meer detail bekijk.)
Het was zowel een beetje geruststellend als een beetje teleurstellend dat AWS-tech-evangelist Julien Simon een soortgelijk gebrek aan geluk had met onze gegevens. Poging alternatief model Met onze dataset in binaire classificatiemodus hebben we een nauwkeurigheidspercentage van slechts 53 tot 54 procent behaald. Dus nu is het tijd om te zien wat er aan de hand was en of we het kunnen oplossen met enkele aanpassingen aan het leermodel. Anders is het misschien tijd voor een heel andere aanpak.
“Subtly charming TV maven. Unapologetic communicator. Troublemaker. Travel scientist. Wannabe thinker. Music fanatic. Amateur explorer.”