Я изучаю фрагментацию моего источника данных для оптимального импорта данных в solr, и мне было интересно, можно ли использовать основной URL-адрес, который разделяет данные на разделы.
Например, файл 1 может иметь
<chunks>
<chunk url="http://localhost/chunker?start=0&stop=100" />
<chunk url="http://localhost/chunker?start=100&stop=200" />
<chunk url="http://localhost/chunker?start=200&stop=300" />
<chunk url="http://localhost/chunker?start=300&stop=400" />
<chunk url="http://localhost/chunker?start=400&stop=500" />
<chunk url="http://localhost/chunker?start=500&stop=600" />
</chunks>
с URL-адресом каждого фрагмента, ведущим к чему-то вроде
<items>
<item data1="info1" />
<item data1="info2" />
<item data1="info3" />
<item data1="info4" />
</iems>
Я работаю с более чем 500 миллионами записей, поэтому я думаю, что данные нужно будет разбить на части, чтобы избежать проблем с памятью (с этим столкнулся при использовании SQLEntityProcessor). Я также хотел бы избежать более 500 миллионов веб-запросов, так как это может дорого обойтись, я думаю.