У меня есть разреженная матрица из векторизатора sklearn bag-of-words. Это csr_matrix, и его элементы представляют частоту слов в документе. Но теперь мне нужна матрица 0/1, где 1 представляет слово, существующее в документе, поэтому меня не волнует фактическая частота. Не обращайте внимания на проблему фона, это так: у меня разреженная матрица,
2 3 4 0 0 0
0 0 0 0 0 8
0 0 0 2 0 0
0 0 0 0 0 0
Я хочу, чтобы все ненулевые элементы были равны 1,
1 1 1 0 0 0
0 0 0 0 0 1
0 0 0 1 0 0
0 0 0 0 0 0
Как я могу этого добиться? Я предполагаю, что использование todense (), а затем loop - не лучший выбор, поскольку разреженная матрица велика. Есть ли способ лучше?