Obtuve un error de tamaño de almacenamiento dinámico de Java al intentar agrupar documentos 15980 a través de carrot2workbench

Su sospecha es correcta, es un problema de tamaño de almacenamiento dinámico o, más precisamente, una restricción de escalabilidad. Directamente de las preguntas frecuentes de carrot2:https://project.carrot2.org/faq.html#scalability

¿Cómo se escala el agrupamiento de Carrot2 con respecto al número y la longitud de los documentos? La característica más importante de los algoritmos de Carrot2 a tener en cuenta es que realizan el agrupamiento en memoria. Por esta razón, como regla general, Carrot2 debería manejar con éxito hasta mil documentos, de unos pocos párrafos cada uno. Para algoritmos diseñados para procesar millones de documentos, puede consultar el proyecto Mahout.

Un desarrollador también publicó sobre esto aquí:https://stackoverflow.com/a/28991477

Si bien los desarrolladores recomiendan Mahout, y este es probablemente el camino a seguir, ya que no estaría sujeto a las restricciones de agrupamiento en memoria como en carrot2, sin embargo, podría haber otras posibilidades:

Si realmente le gusta carrot2 pero no necesita necesariamente k-means, puede echar un vistazo al Lingo3G comercial, basado en el campo "Tiempo de agrupar 100000 fragmentos [s]" y el comentario (***) en https://carrotsearch.com/lingo3g-comparison debería ser capaz de abordar más documentos. Consulte también su entrada de preguntas frecuentes sobre "¿Cuál es el número máximo de documentos que Lingo3G puede agrupar?" en https://carrotsearch.com/lingo3g-faq
Intente minimizar el tamaño de sus etiquetas en las que k-means realiza la agrupación. En lugar de agrupar todo el contenido de los documentos, intente agruparse en el resumen/resumen o extraer palabras clave importantes y agruparlas.