Hoewel het minder aandacht heeft gekregen als DeepSeek in de afgelopen periode is dit item toch het vermelden waard.
De universiteit van Harvard heeft in december aangekondigd dat het een dataset van hoogwaardige kwaliteit bestaand uit bijna 1 miljoen publiek toegankelijke boeken beschikbaar gaat stellen voor het trainen van grote taalmodellen en andere AI tools.
Deze dataset is vijf keer zo groot als de vorige die gebruikt werd voor het trainen van Meta's Llama. Harvard wil hiermee bijdragen aan ontwikkellingen in de gezondheidszorg, klimaatwetenschap en het onderwijs.
Het bevat o.a. boeken uit het Google Book Project en miljoenen te scannen artikelen van de Boston Public Library.
De exacte manier waarop deze dataset vrijgegeven wordt is nog niet geheel duidelijk, maar het is zeker de moeite waard om dit in de gaten te houden als je geintereseerd bent in AI.