Archief voor categorie “Analyse & Statistiek”

Analytische methoden en technieken

In de vorige aflevering heb ik mijn eerste, voorzichtige, text mining stapjes gezet met open source data mining tool RapidMiner. En nu doe ik hetzelfde kunstje met een ander gratis te downloaden data mining tool: KNIME. En daar houden de overeenkomsten niet op, de interface van beide tools lijken verdraaid veel op elkaar. Beide tools zijn ontwikkeld aan een Duitse universiteit, hemelsbreed pakweg 500 km van elkaar.

Deze aflevering dus hetzelfde kunstje als vorige keer, namelijk het analyseren van recensies over de Nokia N97 (in de eerste aflevering kon je zien hoe je met Mozenda snel informatie van het het web kan scrapen).

Ik heb met het maken van deze filmpjes een aardig inzicht gekregen wat deze gratis tools te bieden hebben en ik moet zeggen dat dat niet tegen valt! Goed nieuws dus, voor organisaties met een wat krapper budget.

Comments 7 Reacties »

Vorige week heb ik een video van mijn eerste textmining stapjes met RapidMiner gepubliceerd op DBM Café.

Op de Vancouver Data Blog van Neil McGuigan kwam ik een interessante reeks van video’s tegen over text mining met RapidMiner. Hieronder de laatste video in een reeks van vijf, links naar de overige video’s vind je hier, of op het youtube kanaal van Vancouver Data.

Comments 5 Reacties »

In de vorige aflevering hebben we met Mozenda data verzameld op het internet, oftewel webscraping. Uiteindelijk verkregen we zo een bestand met reviews van een groot aantal mobiele telefoons. Veel leuke tekstdata dus om mee te stoeien.

Onze eerste, voorzichtige, text mining stapjes zetten we met de open-source tool RapidMiner. Bij deze dus DBM Café video nummer 2: Textmining met RapidMiner. Zelfs met geluid. 15 minuten lang mijn monotoon stemgeluid, ik moet er niet aan denken. Maar hé, het geluid kan ook uit!

Heb je nog goede RapidMiner tips? Zet ze als reactie onder dit artikel!
Volgende aflevering ga ik hetzelfde kunstje doen, maar dan met KNIME.

Comments 19 Reacties »

De komende weken trek ik de stoute schoenen aan en zet ik mijn eerste kleine stapjes op het vlak van Text Mining. Vandaag de eerste aflevering in een, naar ik hoop, lange en interessante reeks in dit voor vele database marketeers onontgonnen terrein. Heb je tips & tricks voor me? Ik hoor het graag!

In de aflevering van vandaag ga ik data verzamelen. Het leek me leuk om reviews te gebruiken van mobiele telefoons. Reviews bevatten vaak grote stukken tekst in combinatie met gestructureerde data zoals een rapportcijfer. We gaan deze data natuurlijk niet zelf copy-pasten, we gebruiken daarvoor de webscraping tool Mozenda (we hebben hier eerder over deze tool geschreven).

In onderstaande video (de eerste DBM Cafe video!), laat ik Mozenda alle reviews en rapportcijfers van alle HTC smartphones verzamelen op de site kieskeurig.nl. In amper zes minuten tijd krijg je zo een goed beeld wat je met deze tool kan! De video heeft geen geluid, ik heb een toelichting als ondertiteling toegevoegd. Je kan de video dus rustig kijken zonder je omgeving te storen.

Comments Geen reacties, reageer! »

Introduction to Information RetrievalHet boek Introduction to Information Retrieval staat in het geheel op het internet. Het boek is gebaseerd op de module die de schrijvers geven op de universiteit van Stanford en die van Stuttgart.
Je vindt hier ondermeer het e.e.a. of text mining!

Comments Geen reacties, reageer! »

De University of Toronto heeft een handig overzicht van allerlei data mining technieken gemaakt. Je kan op de onderdelen van de map klikken voor meer achtergrondinformatie over de betreffende procedure.
Zie ook de site van de data mining groep van de afdeling Chemical Engineering and Applied Chemistry, voor meer data mining presentaties en links.

Data Mining Map

Comments Geen reacties, reageer! »

“I kid you not, statistics is now the sexiest subject on the planet” (Hans Rosling,in The Joy of Stats)

Oud-collega Wessel tipte mij (dank!) over onderstaande korte clip uit de BBC Four documentaire “The Joy of Stats”. Een documentaire over de geschiedenis en de toekomst van statistiek, gepresenteerd door de Zweedse prof. die iedereen wel als wiskundeleraar had willen hebben: Hans Rosling (zijn presentatie op TED in 2006 is inmiddels een klassieker).

De volledige documentaire van een uur is online te bekijken op de site van BBC Four. Tenminste als je in de UK woont, want buiten dat eiland is de video niet beschikbaar. Maar DBM Café zou natuurlijk niet je favo Database Marketing hangout zijn als we je geen tip zouden geven om dit soort onfrisse praktijken te omzeilen. Download de Tor UK Catchup TV Package en je kan toch kijken.

Wel doen hoor, is zeker de moeite waard!

In de docu gaan ze ook nog even langs bij Google. Je kent natuurlijk Google Translate, maar wist je ook dat ze spraak realtime willen gaan vertalen? Met behulp van statistiek natuurlijk. Tijd om je talenknobbel in te ruilen voor een wiskundeknobbel…

Comments 4 Reacties »

Er is veel moois in open source land. We schreven eerder over datamining tool RapidMiner. Maar er is meer, kijk eens naar onderstaand introductiefilmpje over KNIME (Konstanz Information Miner), wederom een open source data mining tool. Ook met text mining functionaliteit (beta versie). Zo op het oog lijken beide tools elkaar weinig te ontlopen. Iemand van jullie ervaring met deze tool?

Helaas wel een erg kort filmpje (nog geen drie minuten) en geen geluid. Niet aan je baas laten zien, anders denkt ie nog dat het in het echt ook allemaal zo snel gaat. Wil je wat meer achtergrond over deze tool, zie dan de video op videolectures.net.

Comments Geen reacties, reageer! »

Eerder lieten we een filmpje zien over datamining met SQL Server omdat veel bedrijven die SQL Server hebben alleen de database server gebruiken en niet de analysis tools.

Leuk is ook om de integratie te zien met Excel 2007. Zonder dat je Excel hoeft te verlaten, kan je toch gebruik maken van de algoritmes in SQL Server. Zie hieronder een drietal filmpjes. De add-ins kan je hier downloaden. Zie ook de SQL Server data mining site.

Shopping Basket Analysis

Analyze Key Influencers

Detect Categories

Comments 5 Reacties »

Ik ben wat aan het spelen met text mining en kwam daardoor in aanraking met het open source programma RapidMiner. RapidMiner (toen nog YALE geheten, Yet Another Learning Environment) is oorspronkelijk ontwikkeld aan de universiteit van Dortmund. Inmiddels zijn we aanbeland bij versie 5 en ik sta verbaasd over de uitgebreide mogelijkheden, de gebruiksvriendelijkheid en de gelikte interface. Want open source, dus gratis om mee te spelen! Ik ben nog maar kort met RapidMiner bezig en alleen nog op kleine bestandjes, heeft iemand van jullie meer ervaring met dit programma? Zo ja, plaats even een reactie bij dit artikel.

Ook is er veel trainingsmateriaal beschikbaar. Op de RapidMiner site staan video’s, ze hebben een actief gebruikersforum en in RapidMiner zelf staan al een paar dummy datasets om mee te spelen.

Aanrader is ook zeker de site Neural Market Trends van consultant en zelfbenoemd “RapidMiner evangelist” Thomas Ott.

Op zijn site vind je zeer nuttige en met veel enthousiasme gemaakte video tutorials, waarvan ik je hieronder één laat zien over het maken van decision tree’s. Kijk op Neural Market Trends zeker ook eens naar de tutorial over de Pattern Recognition & Landmarking Plugin. Deze RapidMiner plugin analyseert je dataset en geeft aan welk type model je het beste kan gebruiken.

Veel kijkplezier!

Creating Decision Trees for Market Segmentation

Comments 3 Reacties »

Disclaimer | Privacy Policy

Switch to our mobile site