Harvard Institutional Data Initiative

Deel dit artikel

16 april 2025, Wijnand van Swaaij

Hoewel het minder aandacht heeft gekregen als DeepSeek in de afgelopen periode is dit item toch het vermelden waard.

De universiteit van Harvard heeft in december aangekondigd dat het een dataset van hoogwaardige kwaliteit bestaand uit bijna 1 miljoen publiek toegankelijke boeken beschikbaar gaat stellen voor het trainen van grote taalmodellen en andere AI tools.

Deze dataset is vijf keer zo groot als de vorige die gebruikt werd voor het trainen van Meta's Llama. Harvard wil hiermee bijdragen aan ontwikkellingen in de gezondheidszorg, klimaatwetenschap en het onderwijs.

Het bevat o.a. boeken uit het Google Book Project en miljoenen te scannen artikelen van de Boston Public Library.

De exacte manier waarop deze dataset vrijgegeven wordt is nog niet geheel duidelijk, maar het is zeker de moeite waard om dit in de gaten te houden als je geintereseerd bent in AI.

Nieuws

Presentatie fotografie met smartphone door Brigitte van Berkel

26 maart 2024

Nieuws

Nieuwe website

11 april 2023

Actueel

Nieuws

'Meld je aan voor de nieuwsbrief' van HCC!noord-limburg

'Abonneer je nu op de nieuwsbrief en blijf op de hoogte van onze activiteiten!'

Aanmelden

Actueel

HCC!scheurkalender 2026 geannuleerd

HCC!linux in Nederland

Presentatie 6 mei: Windows 11 24H2, de nieuwe ontwikkelingen en de eisen daarvoor

HCC!scheurkalender

Presentatie fotografie met smartphone door Brigitte van Berkel

'Meld je aan voor de nieuwsbrief' van HCC!noord-limburg

Contact

Adres gegevens